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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ,美国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 号 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 人 迫切。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ;而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 演 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ” 。 自 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 遵 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 , 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brian W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey 
D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, 
Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 
学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳 苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 
的 图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 . www.hzbook.com 
电子 邮件 : hzjsj@hzbook.com 
联系 电话 : (010) 88379604 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 

邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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(ABRAM RE ISR, WHARF OE RR AHR ER 
乱 、 应 接 不 暇 。 无 论 是 物 联网 、 移 动 互联 网 、 云 计算 、 大 数据 ， 还 是 人 工 智能 、 智 能 硬件 、 
机 器 学 习 、 智 能 人 机 交互 ， 这 些 热点 应 用 领域 都 要 依靠 计算 机 系统 硬件 提供 的 强大 计算 能 
力 。 因 此 ， 不 仅 是 计算 机 专业 ， 越 来 越 多 的 各 领域 的 专业 人 士 都 需要 理解 计算 机 系统 硬件 的 
完整 组 成 和 基本 工作 原理 ， 进 而 在 系统 层面 掌握 计算 机 工作 的 全 貌 。 

我 在 北京 邮电 大 学 从 事 “ 计 算 机 组 成 原理 ”课程 教学 二 十 余年 ， 深 刻 感觉 到 ， 计 算 机 系 
统 硬件 课程 对 教 和 学 双方 而 言 难度 都 非常 大 。 开 设 “ 计 算 机 组 成 原理 ”课程 的 目的 是 : 帮助 
学 生理 解构 成 计算 机 硬件 的 基本 电路 的 特性 和 设计 方法 ; 使 学 生 了 解 计算 机 系统 整体 概念 ， 
”理解 指令 在 计算 机 硬件 上 的 执行 过 程 ， 理 解 计算 机 系统 层次 结构 ， 理 解 高 级 语言 程序 、 指 令 
系统 体系 结构 、 编 译 器 、 操 作 系 统 和 硬件 部 件 之 间 的 关系 ; 让 学 生 站 在 系统 的 高 度 考虑 和 
解决 问题 ， 培 养 具 有 系统 观 的 软件 /硬件 贯通 人 才 。 因 此 ， 就 教师 而 言 ， 如 果 自 身 没有 对 计 
算 机 系统 硬件 设计 的 深入 体会 ， 也 就 不 可 能 让 学 生 深 入 地 理解 计算 机 系统 的 整体 组 成 和 工作 
原理 。 

本 书 在 计算 机 系统 硬件 教学 方面 做 了 非常 有 益 的 探索 。 作 者 Nikrouz Faroughi 教授 从 密 
吹 根 州立 大 学 获得 计算 机 科学 硕士 学 位 、 电 子 工程 硕士 学 位 和 计算 机 工程 方向 的 电子 工程 博 
士 学 位 ， 并 曾 作为 顾问 和 技术 经 理 在 英特尔 公司 工作 ， 拥 有 丰富 的 工程 经 验 ， 对 计算 机 系统 
硬件 有 深入 的 了 解 。 

本 书 是 一 部 从 专业 角度 讨论 计算 机 系统 硬件 技术 的 完整 教材 。 通 读本 书 可 以 看 出 ， 本 书 
与 其 他 教科 书 相 比 具有 鲜明 的 特色 。 

第 一 个 特色 是 深入 浅 出 、 循 序 渐进 ， 并 带 有 丰富 的 教学 实例 。 作 者 从 简单 的 数字 钦 辑 电 
路 设计 基础 开始 ， 由 浅 和 人 深 ,， 讲解 了 组 合 逻 辑 和 时 序 逻 辑 电 路 的 设计 技术 、 计 算 机 组 成 的 基 
本 原理 和 计算 机 体系 结构 的 相关 概念 。 全 书 共 11 章 。 第 1 章 是 计算 机 系统 相关 概念 的 概述 ; 
第 2 ~ 5 章 分 别 讨论 组 合 逻 辑 电 路 和 数字 逻辑 电路 的 设计 ; 第 6 章 则 从 大 型 时 序 电路 设计 
过 渡 到 计算 机 系统 控制 器 的 设计 ; 第 7 ~ 9 章 分 别 讨论 存储 器 、 指 令 集体 系 结构 和 系统 互 连 
(总 线 与 输入 /输出 系统 ); 第 10 章 讨 论 多 级 存储 体系 。 

第 二 个 特色 是 把 计算 机 体系 结构 与 系统 安全 问题 相关 联 。 安 全 问题 是 现代 信息 系统 面临 
的 重大 挑战 ， 如 何在 计算 机 系统 硬件 层面 支持 系统 安全 是 在 当今 网 络 互 连 时 代 必 须 面 对 的 问 
题 。 第 11 章 用 较 大 篇 幅 深 入 探讨 了 现代 计算 机 系统 如 何 利 用 硬件 支持 安全 的 体系 结构 。 这 
一 章 从 安全 工程 的 基本 概念 人 手 ， 引 出 访问 控制 、 硬 件 安全 策略 机 制 和 软件 / 物理 攻击 机 
制 ， 并 介绍 了 加 密 技术 、 安 全 协 处 理 器 及 安全 通用 处 理 器 等 诸多 安全 计算 机 体系 结构 的 相关 
概念 与 方法 。 

第 三 个 特色 是 突出 现代 计算 机 的 设计 理念 。 由 于 移动 计算 和 高 性 能 计算 对 系统 性 能 和 
功 耗 的 要 求 ， 以 及 现代 半导体 技术 进步 和 信息 技术 发 展 提供 的 可 能 性 ， 计 算 机 组 织 结构 的 基 
础 已 经 发 生 了 改变 。 本 书 不 仅 提供 简单 的 实例 用 于 展示 基本 的 设计 概念 ， 而 且 试 图 通过 这 些 
实例 揭示 作者 对 现代 计算 机 设计 目标 的 理解 。 书 中 也 提供 大 量 实例 来 展示 如 何 应 用 流水 线 和 


并 行 化 技术 提升 并 发 处 理 能 力 ， 并 揭示 处 理 器 体系 结构 和 编译 器 、 编 程 方法 和 性 能 之 间 的 
关系 。 

因此 ， 本 书 既 适合 计算 机 及 相关 专业 的 本 科学 生 作 为 相关 课程 的 参考 教科 书 ， 也 可 用 于 
电子 信息 类 相关 专业 人 士 完整 理解 计算 机 系统 的 整体 组 成 和 硬件 工作 原理 。 建 议 读者 根据 目 
身 情 况 有 选择 地 阅读 书 中 的 相关 章节 ， 原 书 前 言 给 出 了 如 何 选择 章节 的 建议 。 

本 书 中 文 版 的 翻译 工作 由 我 所 在 的 北京 邮电 大 学 内 人 式 系统 与 网 络 通信 研究 中 心 的 教师 
及 在 校 和 已 毕业 的 研究 生 共同 完成 。 我 与 张 通 、 黄 梦 凡 、 徐 继 彬 、 刘 欣 、 证 坚 、 卞 佳丽 和 刘 
健 培 等 分 别 完成 了 初稿 翻译 、 技 术 指导 、 术 语 整理 和 审 校 等 工作 。 感 谢 机 械 工业 出 版 社 华 章 
公司 的 曲 烟 编 辑 和 朱 秀 英 编辑 在 翻译 过 程 中 提出 的 诸多 有 益 的 建议 。 

在 翻译 过 程 中 ， 我 们 一 直 期 望 在 精确 反映 作者 原意 的 基础 上 尽 可 能 照顾 到 中 文 的 表述 习 
惯 ， 力 求 在 准确 性 和 流畅 性 之 间 取 得 平衡 。 由 于 翻译 时 间 仓促 和 译 者 水 平 有 限 ， 书 中 难免 存 
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编写 本 书 的 目的 是 让 读者 通过 一 本 教科 书 全 面 理解 数字 逻辑 设计 和 计算 机 组 成 。 此 外 ， 
本 书 还 有 独立 的 一 章 介 绍 安 全 的 计算 机 体系 结构 。 

本 书 涵盖 数字 逻辑 设计 的 基本 原理 和 Verilog 硬件 描述 语言 设计 。 各 个 章节 分 别 讨论 
简单 和 复杂 的 组 合 电 路 和 时 序 电 路 的 设计 方法 。 本 书 概述 了 电路 设计 的 现代 工具 和 方法 ， 
而 Verilog 实例 仅 用 于 展示 该 语言 的 基本 特性 和 可 综合 特性 。 如 有 需要 ， 教 师 可 以 选择 用 
VHDL 替代 。 不 过 ， 本 书 并 不 要 求 使 用 硬件 描述 语言 。 

本 书 内 容 包括 存储 器 组 织 、 处 理 器 核心 和 处 理 器 组 织 结构 ， 以 及 硬件 支持 的 计算 机 安全 
等 。 由 于 技术 的 进步 以 及 对 高 速 和 低 功 耗 设 计 的 需求 改变 了 计算 机 组 织 结构 的 基础 ， 因 此 本 书 
尝试 不 仅 提供 简单 的 实例 用 于 展示 基本 的 设计 概念 ， 而 且 揭 示 对 现代 计算 机 设计 目标 的 理解 。 

本 书 还 从 指令 集体 系 结构 角度 讨论 了 计算 机 体系 结构 的 概念 ， 包 括 支 持 安 全 指令 执行 的 
架构 、 流 水 线 和 并 行 化 ， 以 及 存储 絮 层 次 结构 。 本 书 尝 试 提 供 大 量 实例 来 展示 如 何 应 用 流水 
线 和 并 行 化 技术 来 提升 并 发 处 理 能 力 并 降低 或 隐藏 延迟 (这 是 两 个 影响 性 能 的 因素 ) 。 程 序 
代码 实例 也 用 于 展示 CPU 体系 结构 与 编译 器 、 编 程 方法 和 性 能 之 间 的 关系 。 

各 章节 概述 

本 书 一 共有 11 章 。 第 1 章 概述 了 数字 系统 、 计 算 创 新 、 数 码 系统 、 数 字 人 逻辑 设计 和 计算 
机 组 成 /体系 结构 及 安全 。 

第 2 章 和 第 3 章 涵盖 简单 和 复杂 的 组 合 电 路 ， 包 括 整 型 和 浮 点 算术 运算 。 在 第 2 草 讨论 
小 型 电路 的 设计 方法 时 ， 假 定 若 需要 化 简 超 过 4 个 输入 变量 的 真 值 表 ， 学 生 可 以 利用 逻辑 化 
简 软 件 ， 例 如 从 互联 网 上 免费 下 载 的 Espresso。 这 一 章 还 介绍 了 设计 工具 、 结 构 级 和 行为 级 设 
计 模 型 ， 以 及 利用 可 编程 逻辑 器 件 的 电路 设计 ， 也 包括 Verilog 设计 实例 及 其 综合 和 仿真 结果 。 
第 3 章 涵盖 设计 大 型 组 合 电路 的 方法 和 整 型 及 浮 点 数 计 算 机 算术 运算 ， 同 样 给 出 了 设计 实例 。 

第 4 ~ 6 章 涵盖 了 简单 和 复杂 的 时 序 电 路 ， 从 基本 模型 到 复杂 的 数据 通路 与 控制 ， 再 到 
时 序 约束 、 设 计 效 率 和 功 耗 利用 。 第 4 章 介 绍 了 锁 存 器 、 触 发 器 及 其 时 序 要 求 。 第 5 章 介绍 
了 有 限 状 态 机 (FSM) 设计 及 其 时 序 要 求 和 异步 输入 的 处 理 。 第 6 章 介 绍 了 单 周 期 、 多 周期 
和 流水 线 数据 通路 与 控制 。 设 计 实 例 展示 了 数据 通路 和 基于 FSM、 微 程序 及 流水 线 的 三 种 
控制 单元 组 织 ， 此 外 还 给 出 了 几 个 数据 通路 设计 实例 ， 包 插 无 符号 和 带 符号 乘法 运算 以 及 二 
维 虚拟 目标 旋转 。 | : | 

第 7 章 专 注 于 存储 器 ， 包 括 SDRAM 技术 ， 以 及 包括 交叉 和 多 通道 在 内 的 存储 器 设计 。 
这 一 章 也 介绍 了 存储 器 通信 协议 、 性 能 ， 以 及 均匀 存储 器 存 取 (UMA) 和 非 均匀 存储 器 存 取 
(NUMA) 组 织 ; 还 讨论 了 一 些 编程 方法 实例 ， 这 些 实例 可 以 利用 NUMA 组 织 结构 的 优势 来 
提高 性 能 。 

第 8 章 讲解 CPU 设计 ， 从 单 周 斯 和 流水 线 到 精简 指令 集 计 算 机 ( RISC)、 深 度 流 水 和 分 
支 预 测 ， 再 到 静态 和 动态 指令 集 并 行 (ILP)， 直 到 多 线程 。 章 中 包括 CPU 数据 通路 实例 的 设 
计 和 仿真 ， 并 给 出 了 编程 代码 实例 来 说 明 通 过 编译 右 优 化 改进 性 能 、 分 支 预测 、ILP 和 多 线程 。 

第 9 章 专注 于 微型 计算 机 体系 结构 ， 内 容 从 简单 的 总 线 结构 到 集成 结构 再 到 现代 点 到 点 结 
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构 的 历史 脉络 ， 也 包括 VO 端口 寻 址 、 中 断 驱动 VO 和 直接 存储 器 访问 (DMA)， 以 及 现代 “ 即 
插 即 用 ”设备 控制 句 接 口 ， 例 如 USB 主机 控制 器 接口 。 这 一 章 还 讨论 了 中 断 和 相关 操作 系统 
任务 ， 中 断 处 理 CPU 的 数据 通路 和 指令 集 也 被 用 作 实 例 来 解释 简单 计算 机 的 体系 结构 和 操作 。 

第 10 章 涵盖 存储 带 层 次 结构 的 原理 及 其 组 织 。 这 一 章 还 讨论 了 单 处 理 器 系统 中 的 
cache 一 臻 性， 也 介绍 了 共享 存储 妖 多 人 处理 髓 系统 中 的 cache 一 致 性 问题 ， 通 过 实例 从 缺失 
率 、 硬 件数 量 和 功 耗 等 方面 说 明 不 同 的 cache 映射 技术 的 优势 ， 还 介绍 了 虚 地 址 转换 、 页 表 
管理 和 用 于 转换 虚 地 址 的 可 选 处 理 器 的 组 织 结构 。 

第 11 章 从 应 用 在 计算 机 体系 结构 中 的 安全 工程 方法 的 基本 概念 人 手 ， 接 着 引出 访问 控 
制 、 安 全 策略 模型 、 硬 件 安全 策略 机 制 和 软件 / 物理 攻击 机 制 ， 并 介绍 了 加 密 技 术 。 这 一 章 
还 介绍 了 基于 安全 协 处 理 器 (用 于 实现 安全 数据 存储 和 通信 等 ) 或 者 安全 通用 处 理 器 实现 的 
可 信 计 算 基 (TCB) 架构 ， 也 详细 介绍 了 实现 程序 (指令 和 数据 ) 机 密 性 和 完整 性 的 安全 处 
理 顺 的 体系 结构 。 

虽然 第 11 章 的 内 容 被 编排 在 一 起 以 方便 读者 阅读 ,但 其 内 容 也 同时 包含 在 其 他 章节 中 。 
例如 ， 当 学 到 时 序 电路 设计 技术 时 ， 学 生 就 可 以 设计 简单 的 加 密 电 路 。 还 有 一 些 该 章 涉 及 的 
内 容 也 在 其 他 章节 中 出 现 过 ， 包 括 人 硬件 木马 和 硬件 安全 策略 机 制 、 存 储 器 认证 、 中 断 的 安全 
处 理 、 安 全 协 处 理 硕 和 安全 处 理 器 架构 等 。 为 了 给 出 第 11 章 内 容 与 其 他 章节 相关 内 容 的 关 
kK, 第 1 章 、 第 3 章 、 第 5 ~ 10 章 的 练习 部 分 都 列 出 了 第 11 章 的 练习 ， 并 加 注 说 明 为 “ 计 
算 机 安全 ”。 教 师 在 这 些 章节 中 可 以 选择 所 列 的 习题 。 

为 便于 参考 ， 关 键 字 在 第 一 次 出 现时 会 加 粗 显 示 。 缩 写 的 关键 字 不 加 粗 ， 但 少数 会 标 出 
完整 术语 ， 便 于 读者 阅读 。 选 择 本 书 为 其 课程 必修 教材 的 学 术 机 构 的 教师 可 获得 练习 答案 和 
PowerPoint 幻灯 片 。 


如 何 阅读 本 书 


大 多 数 人 认为 ， 本 书 对 于 数字 设计 和 计算 机 组 成 的 讨论 深度 明显 高 于 市 面 上 相似 的 教 
材 。 对 于 这 两 个 主题 ， 本 教材 的 目标 是 在 覆盖 的 广度 和 深度 方面 更 加 平衡 。 在 一 个 学 期 中 ， 
教师 既 能 审慎 地 选择 知识 点 ， 也 可 以 选择 其 课程 中 需要 强调 的 每 个 知识 点 的 深度 和 广度 。 本 
教材 也 包含 了 足够 的 内 容 来 适应 两 个 季度 或 两 个 学 期 的 课程 安排 ， 以 便 深 入 讲授 数字 逻辑 设 
计 和 计算 机 组 成 /体系 结构 两 部 分 内 容 ， 也 使 学 生 有 更 多 的 时 间 来 深入 理解 设计 练习 。 下 面 
是 对 读者 阅读 本 书 的 方式 的 几 点 建议 : 

1. 对 于 没有 或 上 只 有 有 限 的 数字 逻辑 基础 的 本 科 生 ,课程 内 容 可 以 包括 第 1 ~ 5 章 和 第 
6 ~ 9 章 的 部 分 知识 点 ， 以 及 其 余 章节 中 的 典型 知识 点 。 某 些 章节 和 设计 实例 可 以 跳 过 。 

2. 对 于 具备 一 些 数字 逻辑 基础 的 计算 机 科学 和 计算 机 工程 的 本 科 生 ， 课 程 内 容 可 以 包括 
第 1 章 、 复 习 或 选 讲 第 2 ~ 5 章 中 的 部 分 知识 点 、 第 6 ~ 10 章 全 部 知识 点 和 第 11 章 的 部 分 
知识 点。 

3. 对 于 那些 向 没有 或 只 有 有 限 的 数字 逻辑 设计 和 计算 机 组 成 基础 的 研究 生 授予 学 位 的 学 
术 机 构 ， 本 书 是 一 本 理想 的 教科 书 ， 因 为 其 将 数字 逻辑 设计 和 计算 机 组 成 及 体系 结构 整合 到 
了 一 本 书 中 。 

4. 希望 更 新 其 数字 逻辑 和 计算 机 组 成 及 体系 结构 知识 以 及 希望 学 习 安全 相关 的 计算 机 体 
系 结构 概念 的 专业 人 士 可 以 从 本 书 中 获 益 。 


O 关于 本 书 教 辅 资源 ， 有 需要 的 读者 可 向 麦 格 劳 . 希 尔 教育 出 版 公司 北京 代表 处 申请 ， 电 话 : 800 8101 936/010- 
6279 0299-108， 电 子 邮 件 : instructorchina@mcgraw-hill.com. 编辑 注 
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1.1 简介 


计算 机 、iPad、 手 机 等 设备 已 经 引起 了 一 场 改 变 我 们 生活 方方面面 的 数字 革命 。 所 有 的 
数据 形式 ， 从 数字 和 文本 到 音频 、 图 像 和 视频 ， 都 能 被 表示 为 由 一 系列 0 和 1 组 成 的 序列 。 
数字 系统 已 经 改变 了 我 们 的 沟通 、 工 作 、 娱 乐 乃 至 购物 的 方式 ， 并 被 大 量 应 用 于 我 们 所 见 和 
所 用 的 一 事 一 物 之 上 。 它 们 也 存在 于 汽车 、 杂 货 店 结账 设备 、 电 表 、 机 顶 盒 、 应 急 设 备 、 医 
用 设备 、 工 厂 控制 设备 等 系统 中 。 随 着 使 用 数字 系统 的 人 越 来 越 多 ， 越 来 越 多 的 数据 也 被 创 
建 、 处 理 、 存 储 、 传 输 和 访问 。 随 之 而 来 的 是 对 更 强大 的 计算 机 的 需求 ， 无 论 是 个 人 计算 
机 ， 还 是 用 于 电子 商务 、 银 行 、 搜 索引 擎 和 科学 研究 等 诸多 领域 的 大 型 系统 。 

尽管 如 此 ， 计 算 技术 的 更 新 换代 却 是 逐步 向 前 推进 的 ， 其 发 展 依赖 于 诸多 因素 ， 诸 如 
集成 芯片 (IC) 技术 ， 以 及 包括 操作 系统 在 内 的 软件 开发 技术 。IC 技术 的 发 展 持续 推动 着 单 
个 芯片 中 集成 的 晶体 管 数 量 达到 数 十 亿 个 。 特 征 尺 寸 ， 即 决定 作为 电子 开关 的 晶体 管 尺 寸 的 
IC 元 素 的 尺寸 ， 多 年 来 已 变 得 越 来 越 小 。 特 征 尺 寸 的 不 断 缩小 和 裸 片 ( die， 和 矩形 的 半导体 
材料 ) 尺寸 的 不 断 增 长 使 得 晶体 管 的 密度 每 年 大 致 提高 35%。 这 一 现象 又 反 过 来 促使 单一 芯 
片上 的 晶体 管 数量 每 18 ~ 24 个 月 提高 40% ~ 55% ( 见 文献 [1])。 这 一 品 体 管 数 量 提升 的 
速率 就 是 通常 所 说 的 摩尔 定律 。 

近年 来 ， 微 处 理 右 设计 师 一 直 利 用 摩尔 定律 来 指导 未 来 的 处 理 器 设计 。 他 们 利用 不 断 提 
升 的 有 效 唱 体 管 数量 设计 出 高 性 能 的 处 理 器 ， 使 得 个 人 计算 机 发 生 了 创造 性 的 变革 。 

应 用 开发 领域 的 创新 也 已 经 革新 了 数字 系统 的 设计 方式 。 当 今 ， 用 于 IC 设计 的 计算 机 
辅助 设计 (CAD) 工具 的 发 展 使 得 芯片 设计 师 能 使 用 硬件 描述 语言 (ADL) 来 描述 数字 电路 
的 行为 。 这 些 描述 可 以 被 进一步 仿真 、 调 试 、 评 估 ， 甚 至 被 自动 映射 到 硬件 上 构成 电路 。 用 
于 电路 设计 的 CAD 工具 已 普遍 应 用 在 工业 和 教育 领域 中 。 

在 数字 领域 中 ， 也 存在 着 对 数据 和 信息 非法 访问 的 可 能 性 。 个 人 信息 和 众多 组 织 的 知 
识 产 权 相 关 信息 可 能 会 被 盗 取 、 修 改 甚 至 删除 。 亚 意 软 件 可 能 会 侵入 私人 的 计算 机 系统 或 者 
破坏 计算 机 操作 。 然 而 ， 数 字 系 统 是 由 硬件 和 软件 共同 构成 的 ， 并 且 硬 件 的 安全 性 要 高 于 软 
件 ， 因 此 硬件 对 保证 数字 信息 的 安全 尤为 重要 。 

这 一 章 简 单 地 介绍 和 总 结 了 后 续 章节 的 主要 内 容 。 本 书 将 讨论 数字 系统 的 硬件 部 分 ， 从 
基本 电路 到 执行 计算 操作 的 电路 模块 ， 再 到 处 理 元 素 的 设计 一 一 通常 被 称 为 处 理 核心 或 中 央 
处 理 器 (CPU)。 我 们 也 将 讨论 存储 器 、 存 储 器 系统 设计 ， 以 及 包含 多 个 核心 的 计算 机 系统 ， 
即 多 核 处 理 吉 或 多 处 理 器 系统 。 本 书 也 将 对 计算 机 体系 结构 安全 做 简要 介绍 。 


1.1.1 数据 表示 


所 有 的 数字 系统 都 包括 表示 真 或 假 的 输入 和 输出 逻辑 的 电路 。 逻 辑 值 用 一 个 电压 范围 表 
示 。 例 如 ， 使 用 5V 电源 ， 任 何在 2.4 ~ SV 之 间 的 电压 值 表 示 真 ， 任 何在 0 ~ 0.8V 之 间 的 
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电压 值 表 示 假 。 使 用 电池 供电 的 手持 数字 设备 通常 使 用 更 低 的 电源 以 便 节 电 。 真 和 假 的 逻辑 
值 用 1 和 0 的 序列 表示 ， 构 成 二 进 制 数 。 

二 进 制 数 用 于 表示 文本 中 的 字符 、 图 像 中 的 像素 、 数 字音 频 和 视频 中 的 数据 和 计算 过 程 
中 用 到 的 整数 和 实数 。 字 符 通 常用 8 位 美国 信息 交换 标准 码 (ASCII) 或 者 16 位 统一 字符 标 
准 码 (Unicode) 表示 。 由 于 ASCII 编码 只 能 表示 256 (2°) 个 不 同 字 符 (字母 、 十 进 制 数字 和 
符号 )， 而 与 之 相 比 ， 统 一 字符 标准 编码 可 以 表示 超过 65 000 (2°) 个 不 同 字 符 ， 因 此 统一 字 
符 标准 编码 更 适 于 表示 由 字 组 成 的 语言 ， 例 如 亚洲 语言 。 

图 像 由 显示 屏 上 看 到 的 数 千 其 至 数 百 万 个 像素 点 构成 。 每 一 像素 在 彩色 监视 右 中 都 由 三 
个 点 值 组 成 ( 红 , BR, HE), 一 组 点 值 用 不 同 的 颜色 或 灰 度 组 成 了 屏幕 上 的 单一 色 点 。 例 如 ， 
支持 真 彩 色 的 彩色 监视 器 使 用 8 位 二 进 制 数 分 别 表示 红 、 蓝 、 绿 三 种 颜色 ， 那 么 每 一 种 颜色 
就 有 24 位 表示 ， 一 共 可 以 表示 超过 1600 万 (2”) 种 颜色 。 此 外 ， 还 有 用 30 位 或 更 多 位 表示 
超过 十 亿 种 颜色 的 色 深 编码 方式 。 

数字 音频 和 视频 数据 是 由 被 数字 化 (转换) 成 一 连 串 数字 的 模拟 连续 的 电信 和 号 组 成 的 。 
例如 ,麦克风 将 在 空气 中 传输 的 连续 的 声波 转换 成 模拟 电信 号 。 然 后 数字 转换 帮 按 固定 间 隐 
时 间 对 该 模拟 电信 号 进行 采样 并 生成 一 连 串 表示 声音 的 整数 值 。 采 样 间隔 时 间 是 由 采样 率 
决定 的 。 例 如 ，44.1 千 赫 (kHz) 的 采样 率 意味 着 在 一 秒 钟 内 抽取 44 100 个 样本 ,产生 光盘 
(CD) 音质 的 声音 数据 [2]。 

采样 率 越 高 ， 采 样 的 数据 就 越 接 近 原 始 声音 。 每 一 采样 值 代 表 和 采样 时 间 点 的 信号 强度 。 
如 果 用 8 位 二 进 制 数 表示 每 一 个 采样 值 ， 则 信号 强度 被 分 为 256 (2 ) 级 ，0 为 最 低级 而 255 
为 最 高 级 。 如 果 用 16 位 二 进 制 数 表示 ， 则 信号 强度 就 可 以 分 为 65 536 (2°) 级。 由 此 看 出 ， 
用 来 表示 信和 号 强度 的 数据 位 数 越 多 ， 表 示 声 波 的 数据 就 更 精确 ， 但 也 需要 存储 更 多 的 数据 。 
立体 声音 系统 由 两 个 独立 的 音频 声 道 组 成 。 每 个 声 道 的 声音 都 被 单独 采样 ， 这 样 它们 所 生成 
的 声音 文件 大 小 就 是 单 声 道 (mono) 声音 的 两 倍 。 尽 管 如 此 ， 立 体 声 和 单 声 道 哪 个 更 好 ， 还 
是 要 取决 于 采样 率 和 表示 每 个 采样 值 的 二 进 制 位 数 的 多 少 。 

1. 整数 的 表示 

二 进 制 数 字 分 为 有 符号 和 无 符号 两 种 。3 位 无 符号 二 进 制 数 的 表示 范围 是 0 ~ 7， 即 二 
进 制 数 (000). 到 (111)2， 此 处 下 标 2 表示 用 二 进 制 表示 。 在 计算 机 算术 运算 中 ， 有 符号 数 通 
常 被 表示 成 2 的 补 码 。 一 个 负 的 二 进 制 数 通常 被 各 位 取 反 ORF) 末 位 加 1， 从 而 转换 成 与 
其 等 价 的 2 的 补 码 形式 。 例 如 ， 用 4 位 2 的 补 码 来 表示 二 进 制 数 一 3 =- (11): 

1) 将 -(11) 写成 4 位 二 进 制 数 ， 即 - (0011):。 

2) 将 每 一 位 数 取 反 ， 得 1100。 

3) 对 取 反 后 的 数 末 位 加 1， 即 得 到 4 位 -3 的 2 的 补 码 ， 即 (1101),s， 其 中 下 标 2s 表示 
用 2 的 补 码 表示 。 

在 计算 机 中 存储 的 所 有 2 的 补 码 形式 的 数码 中 ， 一 半 是 正 数 ， 另 一 半 是 负数 。 正 数 的 2 
的 补 码 形式 的 值 与 其 二 进 制 值 相同 。 用 4 位 2 的 补 码 形式 表示 + 3 = (11): X (0011)... 2H 
补 码 值 的 最 高 有 效 位 ( MSB) 表示 的 是 该 数 的 符号 : 如 果 最 高 有 效 位 是 1 则 该 数 为 负数 ， 为 
0 则 为 正 数 。 将 负数 的 2 的 补 码 转换 成 与 其 等 价 的 二 进 制 表示 形式 的 过 程 与 此 相似 ， 例 如 将 
(1101)zs 转换 为 - (0011). 的 过 程 描述 如 下 : 

1 ) 将 (1101)ss 的 2 的 补 码 表示 形式 各 位 取 反 ， 得 0010。 

2) 取 反 后 的 结果 加 1， 获 得 4 位 二 进 制 补 码 取 值 (0011),。 
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3) 加 上 符号 位 ， 得 : -(0011)., Bl-(11).=-3 (十 进 制 的 -3 )。 

负数 也 可 以 用 原 码 (符号 - 数值 ，sm) 表示 。 例 如 ，(0011)sm =+3， 而 (1011),。 =- 3, 
此 处 下 标 sm 表示 用 原 码 表示 的 二 进 制 数 。 在 这 个 例子 中 ， 最 高 有 效 位 表示 数 的 负 (MSB = 
1) RIE (MSB = 0 )， 其 他 位 数 表示 数值 的 大 小 ， 例 如 (011): = 3。 

K 1-1 列 出 了 与 3 位 无 符号 数 、2 的 补 码 数 和 原 码 表示 的 二 进 制 数 对 应 的 十 进 制 数 。 在 
算术 运算 中 ， 例 如 加 法 ， 可 以 对 2 的 补 码 数 进行 运算 ， 原 码 形式 仅 用 于 来 表示 实数 ， 而 不 会 
直接 使 用 原 码 形式 的 数 进行 算术 运算 。 计 算 机 算术 运算 将 在 第 3 章 中 讨论 ， 乘 法 运算 会 在 第 
6 章 中 讨论 。 


表 1-1 看 作 3 位 无 符号 数 、2 的 补 码 数 和 原 码 数 时 等 值 的 十 进 制 数 

3 位 二 进 制 数 看 作 2 的 补 码 数 时 等 值 的 十 进 制 数 | 看 作 原 码 数 时 等 值 的 十 进 制 数 
000 +0 
001 
010 
011 
100 
101 
110 
111 


| | 
N | w w |N 
U 


# 1-2 列 出 了 表示 + 5 和 一 5 的 4 位 和 8% 位 的 无 符号 二 进 制 数 、2 的 补 码 形式 和 原 码 形 
式 的 表示 。 当 n> m 时，m 位 的 2 的 补 码 数值 可 以 转换 成 位 的 2 的 补 码 数 值 ， 只 需 简单 地 
将 符号 位 重复 y D 次 。 这 一 操作 称 为 2 的 补 码 的 符号 扩展 。 


表 1-2 无 符号 数 、2 的 补 码 形式 数值 和 原 码 表示 方式 实例 


十 进 制 数 4 位 8 位 
(0101)， (00000101), 左边 补 0 扩展 
+5 (0101)2, (00000101), 应 用 符号 扩展 规则 ， 符 号 位 =0 
(0101 )sm (00000101)m | 符号 位 =0， 左边 补 0 扩展 
- (0101)， — (00000101), 左边 补 0 扩展 
-5 (1011). (11111011), 应 用 符号 扩展 规则 ， 符 号 位 = 1 


(1101)sm (10000101)m | ”符号 位 = 1， 左 边 补 0 扩展 数值 (101), 得 到 7 位 的 数值 (0000101), 


2. 实数 的 表示 

计算 机 也 使 用 实数 进行 运算 ， 如 2.75。 实 数 在 计算 机 里 的 表示 被 称 作 浮 点 (FP) 数 ， 每 
一 个 浮 点 数 都 包含 三 个 整数 部 分 : 符号 位 、 偏 置 指数 和 无 符号 尾数 。 符 号 位 和 无 符号 尾数 
部 分 组 合 起 来 就 是 原 码 表示 形式 。 浮 点 算术 运算 包含 若干 步骤 ， 且 需 对 指数 和 尾数 值 分 别 操 
作 ， 二 者 缘 为 整 型 数值 ， 本 书 将 在 第 3 章 详 尽 讨 论 。 

浮 点 数 的 指数 是 一 个 无 符号 数 ， 表 示 偏 置 指数 。 一 个 被 称 作 偏 置 常 数 的 固定 值 用 来 将 偏 
移 指 数 转换 成 负 指 数 或 正 指数 。 假 设 一 种 浮 点 表示 法 使 用 4 位 偏 移 指数 表示 指数 且 偏 置 常 数 
为 7。 在 此 条 件 下 ， 偏 移 指数 值 可 以 为 0、15, 或 者 1 ~ 4 之 间 的 数值 表示 不 同 的 浮 点 数 。 
公式 (1-1) 展示 了 指数 和 与 之 等 价 的 偏 置 指数 值 的 关系 。 
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指数 值 = 偏 置 指数 值 - 偏 置 常数 — 
偏 置 指 数值 = 指数 值 + le Be HK 
将 实数 2.75 表示 成 16 位 浮 点 数 ， 采 用 4 位 偏 置 指数 值 且 取 偏 置 常数 为 7， 用 
11 位 表示 尾数 。 
2.75 =2+0.5 +025 


= ee ore | 
mata 4 


= (10), + (0.1)2 + (0.01). 
= (10.11): 
=(10.11).x2°; ##=0 
=(1.011).x2'; 指数 =1， 小 数 点 左 移 一 位 
=(1.011).x2°; 偏 置 指数 =8， 偏 置 常数 =7 
=> (0, 1000, 01100000000); 16 位 浮 点 数 表示 
= 0x4300;“0x ”表示 十 六 进 制 数 t 
16 位 浮 点 数 表 示 2.75 有 一 位 符号 位 = 0 (RRE), 4 位 偏 置 指数 = (1000) A 11 位 无 
符号 尾数 = (01100000000),。 隐 含 的 小 数 点 在 无 符号 尾数 的 最 左 端 。 尽 管 在 (1.011) 中 小 数 
点 前 的 1 是 浮 点 数 的 一 部 分 ,但 它 并 不 包含 在 浮 点 数 表 示 法 所 存储 在 存储 器 中 的 16 位 二 进 
制 数 中 。 类 似 地 ，- 2.75 的 16 位 浮 点 数 表示 为 (1, 1000, 01100000000), EP 0xC300， 其 中 
“0x ”代表 十 六 进 制 数 。 
假设 用 位 表示 偏 置 指数 ， 且 偏 置 指数 为 0， 如果 尾数 也 是 0， 则 该 浮 点 数 为 0.0。 如 果 
偏 置 指数 为 0 但 尾数 不 为 0， 则 该 数 就 表示 一 个 非常 小 的 实数 ， 称 为 非 规 格 化 数 。 如 果 偏 
置 指数 的 值 在 1 和 一 2 之 间 ， 则 该 浮 点 数 表 示 的 值 介 于 非常 小 的 实数 和 非常 大 的 实数 之 间 ， 
称 为 规格 化 浮 点 数 。 如 果 偏 置 指数 为 k- 1， 则 当 尾 数 为 0 时， 该 浮 点 数 被 看 作 无 穷 大 (œ); 
而 当 尾 数 不 为 0 时， 该 浮 点 数 被 看 作 无 效 数据 ,例如 V1。 


表 1-3 4 位 偏 置 指数 和 指数 


偏 置 指数 eo — 
十 进 制 数 
0 ooo | o | o |o | 表示 浮 点 数 稚 (0.0) 


表示 一 个 非常 小 的 浮 点 数 ， 称 为 非 
15 表示 无 穷 大 (例如 1.0 除 以 0.0 的 
结果 ) 


'| 表示 一 个 无 效 的 浮 点 数 (例如 表示 
V- 1 的 结果 ) 


T 表示 规格 化 浮 点 数 


偏 置 常数 决定 了 计算 机 中 实数 的 表示 范围 。 如 表 1-3 所 示 ， 取 4 位 偏 置 指数 且 当 偏 置 常 
R= 7 时 ， 规 格 化 浮 点 数 的 指数 范围 在 -6 ~ +7 之 间 ; 而 当 偏 置 常 数 = 8 时， 指数 的 范围 
在 -7 ~+6 之 间 。 这 说 明 当 偏 置 常数 = 7 时 ，16 位 浮 点 数 格式 能 表示 更 多 的 大 实数 : 最 大 
指数 = 7， 而 最 小 指数 = - 6。 而 当 偏 置 常数 = 8 时 ， 浮 点 数 格式 能 表示 更 多 的 小 实数 : 最 大 
指数 = 6， 最 小 指数 = - 7。 现代 计 算 机 采用 32 位 和 64 位 电气 与 电子 工程 师 协 会 (IEEE) 浮 


15 1111 # 0 


T <# 5 


点 数 标 准 表 示 ， 这 将 在 第 3 章 中 讨论 。 


1.1.2 ”数据 通路 


无 论 我 们 处 理 的 数值 是 无 符号 整数 、 有 符号 整数 还 是 浮 点 数 ， 数 字 电 路 的 输入 和 输出 都 
是 用 二 进 制 表示 的 。 一 个 简单 的 数字 电路 完成 一 个 简单 函数 运算 并 生成 单 比特 输出 。 而 一 个 
复杂 电路 则 生成 多 位 的 运算 结果 ， 完 成 一 个 或 者 多 个 函数 运算 。 一 个 复杂 的 数字 电路 通常 由 
数据 通路 和 控制 单元 构成 ， 如 图 1-1 所 示 。 图 中 有 很 多 细节 在 这 里 并 没有 显示 出 来 。 不 过 ， 
仍 需 注 意 的 是 数据 可 以 通过 多 条 通路 传输 。 


数据 通路 控制 器 


存储 器 





图 1-1 包含 数据 通路 和 控制 器 的 复杂 数字 电路 方 框图 


特别 地 ， 一 个 数据 通路 包含 了 多 种 电路 模块 ， 共 同 完 成 一 个 或 者 多 个 函数 运算 。 而 其 
中 的 模块 可 以 是 算术 运算 类 模块 ， 比 如 生成 两 数 之 和 的 加 法 器 ; 也 可 以 是 在 多 个 输入 中 择 一 
输出 的 选择 器 ; 还 可 以 是 暂 存 数据 的 寄存 器 等 。 在 图 1-1 中 ， 数 据 通 路 中 包含 一 个 由 多 个 寄 
存 器 组 成 的 寄存 器 文件 、 一 个 加 法 器 、 一 个 乘法 器 和 一 个 选择 器 。 它 可 以 将 两 个 寄存 器 取 值 
(图 中 标 为 Valuel 和 Value2 ) 的 和 或 积 作 为 结果 输出 ， 并 将 结果 存储 在 一 个 寄存 器 中 。 

控制 器 ( 即 控制 单元 ) 产生 一 组 信号 ， 每 一 个 用 1 或 者 0 表示， 控制 数据 通路 的 功能 。 
例如 ， 在 图 1-1 中 ， 当 控制 信号 为 0 时 ， 选 择 器 的 输出 是 两 数 之 和 ; 而 当 控 制 信号 为 1 时 ， Le] 
选择 器 的 输出 是 两 数 之 积 。 寄 存 器 控制 信号 决定 了 寄存 器 从 其 输入 端 加 载 有 效 数值 的 确切 时 
间 。 图 中 ,寄存器 的 初始 值 是 从 存储 器 等 外 部 模块 中 读 取 的 ， 输 出 结果 也 可 以 存储 在 存储 器 中 。 


1.1.3 计算 机 系统 


图 1-2 展示 了 被 称 为 汉 “' 诺 依 曼 机 的 计算 机 系统 方 框图 ， 这 是 迄今 为 止 几乎 所 有 计算 机 
的 基本 架构 。 程 序 指令 和 数据 存储 在 存储 器 中 ，CPU 则 负责 存 取 存 储 器 中 的 指令 和 数据 并 
执行 指令 。 

CPU 是 由 与 图 1-1 所 示 相 似 的 数据 通路 和 控制 单元 组 成 的 数字 电路 ,但 是 比 图 示 要 复 
杂 得 多 ， 且 包含 执行 三 种 主要 操作 的 子 数 据 通路 : 

oe 取 指 数据 通路 : 从 存储 器 中 加 载 指令 。 

e。 译 码 数据 通路 : 决定 执行 指令 所 需 的 控制 信号 。 

o 执行 数据 通路 : 进行 指令 所 要 求 的 运算 。 

取 指 、 译 码 和 执行 数据 通路 所 完成 的 操作 统称 为 指令 执行 。 随 着 计算 机 技术 的 进步 ， 
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CPU 和 存储 器 的 性 能 近年 来 都 不 断 提 升 ， 但 CPU 性 能 的 提升 速度 远 远 高 于 存储 器 性 能 的 提 
升 速 度 。 因 此 ， 冯 … 诺 依 曼 体 系 结构 在 高 速 的 CPU 和 低速 的 存储 器 之 间 存 在 通信 上 瓶 祷 。 





接口 输入 /输出 设备 
( 键盘 、 鼠 标 、 光 盘 驱动 等 ) 


图 1-2 冯 … 诺 依 曼 机 的 计算 机 系统 方 框图 


执行 数据 通路 可 以 执行 一 系列 的 特定 指令 ， 包 括 可 以 在 CPU 寄存 器 和 存储 器 或 者 输入 / 
输出 (1/0) 设备 之 间 传 输 数据 的 数据 传输 指令 。 这 一 系列 指令 还 包括 算术 运算 指令 ， 以 及 实 
现 for 循环 、while 循环 、 子 程序 调用 和 返回 等 功能 的 指令 。 

编译 器 将 高 级 程序 语句 翻译 成 等 价 的 汇编 指令 。 设 有 一 高 级 程序 语句 “A = B + C;”, 
其 中 A、B 和 C 都 是 变量 ， 其 值 存 储 在 存储 器 中 。 采 用 图 1-1 所 示 的 数据 通路 ， 则 编译 带 将 
该 语句 翻译 成 等 价 的 汇编 指令 ， 可 以 用 不 严格 的 语法 表示 如 下 : 


Load R1, B // 将 B 的 取 值 加 载 至 寄存 器 工 (R1) 中 

Load R2, C /将 C 的 取 值 加 载 至 寄存 器 2 (R2) 中 

Add R3, R1, R2 // 将 R1 和 R2 的 内 容 相 加 并 把 结果 存 入 寄存 器 3 (R3) 
Store A, R3 // 将 求 和 结果 存 入 存储 器 单元 A 中 


“Load”“Add” 和 “Store ”都 是 操作 码 ， 每 一 个 操作 码 都 有 与 其 对 应 的 唯一 二 进 制 数 。 
汇编 码 包含 数据 传送 指令 , B “Load R1, B” 和 “Load R2, C”, AFH B 的 值 和 C 的 
值 从 存储 器 中 加 载 到 寄存 器 1 和 寄存 器 2 中 。 汇 编码 也 包括 算术 运算 指令 “Add R3, R1, 
R2”， 其 中 寄存 器 1 和 寄存 器 2 为 输入 而 寄存 器 3 为 输出 ， 以 及 数据 传输 指令 “Store A, 
R3”， 用 于 将 寄存 器 3 中 的 值 传输 至 存储 单元 A 中 。 

相应 的 汇编 程序 会 把 每 一 条 汇编 指令 翻译 成 二 进 制 代 码 ， 称 为 机 器 指令 。 通 常 ， 汇 编程 
序 (需要 时 ) 也 会 链接 静态 库 函 数 ， 比 如 C 语言 中 的 “strcpy()”“sqrt () ”等 例 程 ， 然 
后 生成 一 个 可 执行 (二进制 ) 文件 (例如 myprogram.exe)。 程 序 开始 执行 时 ， 首 先 把 程序 加 
载 到 存储 器 中 ， 然 后 处 理 器 会 逐一 从 存储 器 中 取出 指令 并 译 码 该 操作 码 ， 生 成 必要 的 控制 信 
号 执行 相应 指令 。 

被 访问 最 频繁 的 指令 和 数据 也 会 被 存储 在 cache (高 速 缓存 ) 中 以 提升 性 能 。cache 存储 
髓 将 从 低速 存储 器 中 存 取 指 令 和 数据 的 次 数 降低 到 最 少 ， 从 而 减少 了 从 存储 器 中 读 取 指令 和 


.数据 的 平均 处 理 器 等 待 时间 。 
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设备 控制 器 接口 (DCI) 由 IO Me ZA, FPA SE. ESR ob AA. DCI 
也 可 以 包含 其 他 模块 ， 例 如 内 部 存储 器 ， 用 于 在 数据 传输 到 存储 器 之 前 暂 存 外 设 数据 ， 或 者 
在 把 数据 传输 至 设备 之 前 从 存储 器 接收 数据 。 最 终 ， 通 过 互联 基础 架构 可 以 将 处 理 器 、 存 
储 器 、 各 种 设备 控制 器 接口 以 及 用 于 文 持 与 存储 器 通信 或 提升 系统 整体 性 能 的 其 他 模块 互联 
起 来 。 

计算 机 系统 还 可 以 包含 特殊 或 专用 的 处 理 器 ， 例 如 个 人 计算 机 中 的 图 形 处 理 单元 
(GPU) 和 用 在 许多 人 散人 式 系统 中 的 数字 信和 号 处 理 器 (DSP)。 图 形 处 理 单元 和 数字 信和 号 处 理 
器 都 具备 特殊 的 数据 通路 和 控制 器 ， 分 别 用 于 计算 机 图 形 和 游戏 操作 及 高 效 处 理 数 字音 频 和 
视频 数据 。 


1.1.4 藤 入 式 系统 


嵌入 式 系统 是 将 硬件 和 软件 均 集 成 在 单个 或 多 个 集成 电路 上 的 完整 系统 。 一 个 简单 的 好 
入 式 系统 通常 被 称 作 微 控制 器 ， 用 于 设计 诸如 计算 机 键盘 之 类 的 简单 设备 。 在 单个 芯片 上 设 
计 的 复杂 嵌入 式 系统 即 片上 系统 (SoC) 。 像 手机 、 数 字 便 携 摄 像 机 之 类 的 手持 设备 都 是 嵌入 
式 系统 。 骨 入 式 系统 也 用 于 设计 先进 的 设备 控制 器 接口 ， 比 如 可 以 和 多 种 不 同 设备 连接 的 通 
用 串 行 总 线 (USB) 主机 控制 器 接口 。 
嵌入 式 系统 除了 可 以 包含 一 个 或 者 多 个 处 理 单元 外 ， 还 可 根据 应 用 的 需要 包含 数字 数据 
接收 / 发 送 模块 和 信和 号 转换 模块 ， 例 如 模 数 ( A/D) 和 数 模 (D/A) 转换 器 。 模 数 转换 器 可 以 
将 模拟 信号 (例如 麦克 风 的 输出 信号 ) 转换 成 数字 信和 号 以 便于 数字 通信 和 存储 。 数 模 转换 器 
则 相反 ， 比 如 可 以 将 数字 音频 数据 重新 转换 为 模拟 信号 并 送 入 扬声器 。 
嵌入 式 系统 可 以 用 定制 的 专用 集成 电路 (ASIC) 实现 ， 有 时 为 了 快速 生成 原型 系统 ， 也 
采用 现场 可 编程 门 阵列 (FPGA) SER. FPGA 芯片 中 包含 功能 未 确定 但 可 以 配置 的 电路 模块 。 
PUR FPGA 芯片 包含 CPU、 存储 器 和 可 配置 电路 模块 ， 可 用 于 创建 片上 系统 而 无 需 进 行 制 
造 实验 [3]。 
1.2 ”逻辑 设计 
数字 电路 即 逻 辑 电 路 ， 可 以 实现 一 个 或 多 个 布尔 表达 式 ， 而 每 个 布尔 表达 式 均 定义 了 一 
个 或 多 个 输入 与 单一 输出 之 间 的 逻辑 关系 。 输 入 和 输出 都 由 布尔 变量 命名 ， 称 为 信和 号， 每 个 
信和 号 的 值 或 者 为 真 (T) 或 者 为 假 (FE)。 公 式 (1-2 ) 定义 了 有 a、b、c 三 个 输入 信号 和 一 个 
输出 信号 人 的 逻辑 电路 布尔 (逻辑 ) 表达 式 。 图 1-3a 显示 了 该 电路 的 方 框图 。 
f=((NOT a) AND b) OR c (1-2) 
表达 式 中 的 AND、OR AI NOT 为 布尔 逻辑 运算 符 。 唱 体 管 构成 的 逻辑 门 用 于 实现 每 一 
种 布尔 运算 符 。 现 代 集 成 电路 使 用 数 百 万 个 逻辑 门 实现 处 理 器 这 类 复杂 的 逻辑 电路 。 当 两 个 
输入 都 为 1 时 , 与 (AND) 门 的 输出 为 1 (A); 当 至 少 一 个 输入 为 1 时 , 或 COR) 门 的 输出 
为 1; 非 (NOT) 门 的 输出 值 与 输入 值 相反 ， 如 果 输 入 为 0( 假 ) 则 输出 为 1， 而 输入 为 1 ( 真 ) 
则 输出 为 0。 例如， 当 a =0、b=1 且 c=0 时 , f 的 逻辑 值 由 公式 (1-3) 决定 : 
f = ((NOT 0) AND 1) OR 0 
=(1 AND 1) ORO 
=] OR0 
=] 


(1-3) 


EE 


除了 非 (NOT) 之 外 的 其 他 运算 符 可 以 被 扩展 至 多 于 两 个 布尔 变量 ， 而 其 等 价 的 逻辑 门 
实现 可 支持 两 个 或 者 更 多 个 (不 超过 最 大 值 ) 独立 输入 信号 。 还 有 其 他 的 逻辑 门 ， 例 如 与 非 
门 (NAND) 和 或 非 门 (NOR)， 这 些 逻 辑 门 可 以 用 更 少 的 晶体 管 实 现 。 与 非 门 在 逻辑 上 等 价 
于 与 门 后 面 跟着 一 个 非 门 〈 与 非 逻辑 )， 而 或 非 门 则 等 价 于 或 非 逻辑 。 一 般 而 言 ， 逻 辑 电 路 
或 者 用 与 非 门 实现 ， 或 者 用 或 非 门 实现 。1.2.2 节 将 讨论 非 门 、 与 非 门 和 或 非 门 的 晶体 管 组 
成 。 图 1-3b 显示 了 用 非 门 、 与 门 和 或 门 〈 称 为 与 或 电路 ) 实现 表达 式 上 的 原理 图 ， 图 1-3c 
为 与 其 等 价 的 与 非 门 电路 。 


a 
a 
Ph, OS | 
C f Cc 
f 
a) 电路 方 框图 b ) 与 或 门 实现 c) 与 非 门 实现 


图 1-3 ”与 或 门 和 与 非 门 的 逻辑 电路 框图 


如 表 1-4 所 示 ， 图 1-3 中 的 a、b 和 cc 的 输入 值 有 8 种 可 能 的 组 合 。a、b 和 c 可 以 组 合 
起 来 构成 一 个 3 位 二 进 制 数 (abc),， 其 中 使 f= 1 的 5 个 取 值 abc = (001)2, (010), (011)2, 
(101) 和 (111). 分 别 对 应 素数 1、2、3、5 和 7。 剩余 的 令 f= 0 的 三 个 二 进 制 数 abe = (000) 
(100) 和 (110); 则 不 属于 素数 。 因 此 ， 公 式 (1-2 ) 定义 的 逻辑 电路 每 当 三 位 输入 值 abe 代表 
素数 时 输出 1， 否 则 输出 0。 表 1-4a AK 1-4b 是 逻辑 表达 式 f 的 两 种 不 同形 式 的 真 值 表 。 随 
后 将 讨论 等 价 表达 式 g。 


表 1-4 公式 (1-2) 和 公式 (1-4) 的 输入 逻辑 组 合 及 其 对 应 输出 值 


a) 用 真 或 假 表 示 逻 辑 值 b) 用 1 ( 真 ) 或 0 ( 假 ) 表示 逻辑 值 
| eJ e | 和 | gs |} a | nh | % | f | a 
TRN ee 
Ree BE ae we ee ae ee ee ee 
Ee | Py Fe ed E 
Oe TE a UL a E 
| 
a ERS ENEN | ER 
a RE CRT ES SS PE BR ES Ne el T I R 
El es E ee SE a a a A E 


1.2.1 电路 最 小 化 


尽管 一 个 逻辑 关系 可 以 用 奉 干 个 等 价 的 布尔 表达 式 表示 ， 但 我 们 的 目标 还 是 要 找到 一 
个 具有 以 下 特征 的 最 小 表达 式 : 1 ) 需要 更 少 的 硬件 实现 ( 即 更 少 的 门 逻 辑 ， 更 少 的 门 输入 ， 
更 少 更 短 的 连接 线 ) ; 2 ) 实现 该 表达 式 的 最 终 电 路 需要 更 短 的 时 间 产 生 输 出 结果 。 用 布尔 代 
数 可 以 实现 复杂 表达 式 的 最 小 化 。 

AA (1-4) 描述 了 与 公式 (1-2) 中 f 等 价 的 g 的 逻辑 表达 式 。 用 于 实现 表达 式 g 的 
人 硬件 部 件 要 比 实现 表达 式 f 的 多 。 但 是 ， 如 表 1-4 所 示 ， 与 输出 g 和 f 相 对 应 的 每 一 项 都 是 
一 样 的。 这 证 明 公 式 (1-2) MAK (1-4) 是 等 价 的 ， 两 者 描述 了 同样 的 函数 关系 ， 但 公 
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A (1-2) 是 最 小 化 的 。 实 现 公式 〈1-2 ) 的 电路 要 比 实现 公式 (1-4) 的 电路 需要 少 得 多 的 硬 
件 ， 而 且 操 作 速 度 更 快 。 
g = ((NOT a) AND (NOT b) AND c) OR 
((NOT a) AND b AND (NOT c)) OR 
((NOT a) AND b AND c) OR (1-4) 
(a AND (NOT b) AND c) OR 
(a AND b AND c) 


1.2.2 ”实现 


图 1-4 展示 了 使 用 一 个 p 类 和 一 个 n 类 金属 -氧化 物 半 导体 场 效 应 晶体 管 (MOSFET) 
构成 的 非 门 电路 原理 图 。 该 原理 图 称 为 CMOS (“C” 表 示 互 补 ，complement) HR, AA 
pMOS 和 nMOS 晶体 管 是 互补 的 ; 当 一 个 晶体 管 处 于 关 断 〈 未 导 通 ) 状态 时 ， 男 一 个 处 于 开 
通 〈 导 通 ) 状态 。 如 图 1-4a 所 示 ， 当 输入 x 的 值 为 逻辑 0 (0V) 时 ，pMOS 晶体 管 变 为 开通 
状态 而 nMOS 品 体 管 变 为 关 断 状态 。 这 将 使 输出 信号 ff 的 取 值 如 期 变 为 逻辑 1， 正 如 原理 图 
中 所 示 的 指示 灯 点 亮 且 电压 表 读 数 显 示 为 4.999V。 


一 oA mam >o Aih EHO 
i i ( 4.999V ) ( 5.0V ) (ov) 


Key =Space 


U1 
DC 100MOhm 





a) 当 输入 x=0V (5480 ) 时 的 电路 b) 当 输 入 x=5V ( 逻辑 1 ) 时 的 电路 
1-4 CMOS 非 门 电路 原理 及 其 电路 仿真 [4] 


在 图 1-4b 中 ， 当 输入 x 为 逻辑 1 (5.0V) 时 ， 结 果 相 反 。pMOS 品 体 管 关 断 ， 而 nMOS 
品 体 管 开通 ， 输 出 f 变 为 逻辑 0， 正如 原理 图 中 所 示 的 指示 灯 熄 灭 且 电压 表 读 数 显 示 为 0V 
(人 05 上 入 SO0V)。 

老 旧 的 大 型 计算 机 是 使 用 低能 效 的 门 电 路 制造 而 成 的 ， 与 之 相 比 ， 现 代 芯 片 是 采用 高 能 
效 的 ep 门 设计 的 。 如 图 1-4 所 示 ， 由 于 其 中 一 个 晶体 管 始 终 处 于 关 断 状态 ，CMOS 非 门 
基本 上 只 在 一 个 晶体 管 开通 而 另 一 个 晶体 管 关 断 的 情况 下 才 消 耗 电 能 。 当 每 次 输入 x 从 逻辑 
a 这 种 情况 才 会 发 生 。 当 然 ， 如 果 x 值 的 变换 
非常 频繁 ， 唱 体 管 在 开通 和 关 断 状态 之 间 转 换 得 也 会 非常 快 ， 这 会 使 非 门 消耗 更 多 的 电能 。 

随 着 芯片 上 集成 的 晶体 管 的 数量 及 其 在 开通 和 关上 断 之 间 切 换 的 速率 同时 提升 ， 芯 片 运 
转 所 需 的 电能 也 随 之 增加 ， 这 相应 地 要 求 释放 更 多 的 热量 以 便 冷 却 芯 片 。 比 如 ，Intel 80386 
处 理 器 功率 约 为 2W， 而 3.3GHz 的 Intel BEA i7 处 理 器 则 消耗 大 约 130W 的 功率 ( 65 倍 以 
上 )。 与 过 去 的 大 型 计算 机 和 超级 计算 机 相反 ， 现 代 计 算 机 系统 采用 风扇 制冷 系统 。 设 计 师 
必须 考虑 芯片 要 持续 消耗 多 少 电 能 ， 以 免 超 出 其 温度 承受 范围 而 造成 芯片 工作 失效 甚至 永久 
性 损坏 。 功 耗 问 题 将 在 第 6 章 中 进一步 讨论 。 
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图 1-5 显示 了 两 输入 CMOS 与 非 门 的 电路 原理 图 。 如 图 所 示 ， 两 个 并 联 的 pMOS RAE 
和 两 个 串联 的 nMOS 晶体管 被 连接 到 电源 和 地 。 当 两 个 输入 a 和 b 都 为 逻辑 1 时， 与 非 门 输 
出 逻辑 0， 此 时 两 个 nMOS 晶体 管 均 为 开通 状态 ， 而 两 个 pMOS 晶体 管 均 为 关 断 状态 。 图 中 的 
真 值 表 还 显示 了 输入 a 和 b 的 4 种 可 能 取 值 及 其 输出 了 的 对 应 取 值 ， 以 及 晶体 管 的 工作 状态 。 
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1-5 ”两 个 输入 CMOS 与 非 门 的 电路 原理 图 


类 似 的 ， 图 1-6 展示 了 两 输入 或 非 门 电路 原理 图 。 在 此 图 中 ， 两 个 pMOS 晶体 管 串联 而 
两 个 nMOS 晶体 管 并 联 。 当 至 少 有 一 个 nMOS 晶体 管 为 开通 状态 时 (a=1、b= 1 或 者 a=1 
且 b = 1), 输出 为 逻辑 0( 即 0)。 当 两 个 pMOS 晶体 管 都 为 开通 状态 且 两 个 nMOS 都 为 关 
断 状态 时 (a= 0 且 b=0), 输出 为 逻辑 1 ( 即 1 )。 


VDD 
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0: | | | | | t 0 


a |b Prt | 2) ts] M T] 
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Key =Space a 
1-6 ”两 个 输入 CMOS 或 非 门 的 电路 原理 图 
1.2.3 电路 类 型 


布尔 表达 式 既 可 描述 组 合 电 路 ， 也 可 描述 时 序 电 路 。 组 合 电路 的 输出 仅仅 取决 于 电路 当 
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前 的 输入 值 。 公 式 (1-2) 和 公式 (1-4) 都 是 简单 组 合 电路 的 表达 式 。 而 图 1-1 中 的 加 法 器 、 
乘法 器 和 数据 选择 器 模块 则 是 更 复杂 的 组 合 电路 ， 每 个 电路 都 产生 多 位 输出 ， 并 基于 其 相应 
的 当前 输入 逻辑 值 并 行 生 成 输出 结果 。 

相反 ， 时 序 电 路 则 根据 此 前 输入 的 逻辑 值 存储 特定 的 状态 信息 。 例 如 ， 输 出 0、1 
3 等 值 的 计数 器 就 是 时 序 电 路 。 它 根据 当前 的 输出 值 (例如 2 ) 生成 序列 中 的 下 一 个 取 值 ( 例 
如 3 )。 当 前 的 计数 值 会 作为 计数 器 的 状态 存储 在 计数 器 内 部 。 有 时 ， 时 序 电路 也 会 根据 一 
个 或 多 个 输入 来 决定 下 一 个 状态 。 例 如 ， 递 增 /递减 计数 器 需要 一 个 控制 信号 来 决定 计数 方 
问 。 如 果 计 数 器 的 当前 输出 为 2， 则 递减 计数 时 下 一 输出 为 1， 递增 计数 时 下 一 输出 为 3。 

图 1-1 中 所 示 的 寄存 器 和 控制 器 也 属于 时 序 电 路 。 当 控制 器 发 出 信号 时 ， 每 个 寄存 器 都 
在 内 部 存储 固定 取 值 并 一 直 保持 该 值 ， 直 到 控制 器 再 次 发 出 信号 。 控 制 器 根据 一 系列 的 状态 
生成 控制 信号 去 控制 数据 通路 。 一 个 或 者 多 个 控制 信号 可 以 用 于 控制 数据 通路 中 每 一 个 模块 
的 功能 。 图 中 ， 一 个 控制 信号 用 于 控制 寄存 器 和 数据 选择 器 。 如 果 逻 辑 值 1 用 于 寄存 器 加 载 
而 0 用 于 保持 ， 则 当 其 控制 信号 为 1 时 ， 寄存 器 就 会 从 其 输入 端 加 载 罗 辑 值 ， 而 当 控 制 信号 
为 0 时 ， 则 保持 其 当前 值 不 变 。 

假设 图 1-1 中 的 控制 器 是 三 状态 控制 器 ， 实 现下 述 三 个 简单 功能 ， 并 每 次 求 出 两 个 输入 
的 和 : 

© 状态 1: 从 存储 器 加 载 数据 至 寄存 器 1。 

e 状态 2: 从 存储 器 加 载 数据 至 寄存 器 2。 

e 状态 3: 选取 求 和 结果 并 将 其 存 人 寄存 器 3。 

通常 ， 一 个 实现 诸如 算术 运算 功能 之 类 的 电路 既 可 以 设计 成 组 合 电路 ， 也 可 设计 成 时 
序 电 路 。 组 合 逻 辑 算术 运算 电路 可 以 一 步 生 成 其 输出 结果 ， 且 并 行 生 成 所 有 的 输出 位 ， 如 
图 1-7 所 示 。 相 反 ， 时 序 逻 辑 算 术 运 算 电 路 用 若干 步 串 行 生成 最 终 的 输出 。 在 每 一 步 中 ， 时 
序 电路 都 根据 前 一 步 的 结果 生成 当前 一 步 的 输出 。 这 个 过 程 重复 固定 的 次 数 ， 直到 产生 最 终 
的 输出 结果 。 


A B 
11100110 10000100 


8 位 组 合 电路 加 法 器 初始 进位 =0 


1 01101010 
最 终 进位 S 
1-7 8 位 加 法 器 的 组 合 电路 框图 


例如 ， 一 个 8 位 的 时 序 电 路 加 法 器 可 以 重复 8 次 利用 单位 加 法 器 生成 最 终 的 8 位 和 ， 
如 图 1-8 所 示 ， 这 和 我 们 手工 进行 两 个 数 的 加 法 运算 非常 相似 ， 每 次 一 个 数字 ， 从 右 往 左 
运算 。 图 中 ， 在 每 一 步 运算 过 程 中 ， 从 A 数 中 取出 一 位 ， 从 B 数 中 取出 一 位 ， 再 加 上 前 一 
步 生 成 的 进位 位 生成 下 一 步 的 和 值 。 加 法 器 内 部 保存 进位 位 用 于 下 一 步 操 作 。 图 中 也 展示 
了 内 部 存储 的 进位 位 的 各 次 运算 结果 。 内 部 进位 位 初始 值 为 0。 时 钟 信号 控制 数 A 和 数 B 
下 一 位 进入 加 法 需 的 时 间 以 及 生成 和 S 的 下 一 位 的 时 间 。 经 过 8 次 运算 ， 最 终 的 8 位 和 8S 
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就 生成 了 。 


B: 10000100 
A:11100110 
1 位 时 序 电 路 重复 8 次 


时 名 加 法 器 ( 当前 进位 
Be | 位 内 部 保存 ) 





进位 位 10000100 进位 位 ， 10000100 


A:11100110 wm: 87654321 
B: 10000100 S 01101010 
S: 01101010 步 次 : 87654321 
a) 从 右 至 左 ， 每 次 做 一 位 加 法 b ) 一 次 加 一 位 数 的 时 序 电路 模型 


1-8 8 位 串 行 加 法 器 : a) 描述 手工 计算 进行 多 位 数 A 和 B 相 加 的 过 程 ， 每 次 只 加 一 位 ; b) 展示 
了 用 时 序 电 路 进行 多 位 数 求 和 的 步骤 (算法 ) 


乘法 上 器 也 可 以 使 用 组 合 电路 或 者 时 序 电 路 来 设计 。 组 合 电路 的 乘法 器 在 同一 时 间 运 用 多 
个 组 合 加 法 模块 来 生成 乘积 。 相 反 ， 时 序 电路 的 乘法 器 可 以 重复 地 使 用 组 合 加 法 器 或 者 时 序 
加 法 需 来 生成 乘积 。 相 比 之 下 ， 组 合 运算 电路 通常 比 与 其 等 价 的 时 序 电 路 速度 要 快 ， 但 是 也 
要 消耗 更 多 的 硬件 资源 。 


1.2.4 ”计算 机 辅助 设计 工具 


布尔 代数 的 规则 也 可 通过 软件 实现 ， 并 且 已 经 被 集成 到 许多 逻辑 设计 CAD 工具 中 。 设 
计 师 通常 使 用 HDL， 或 者 更 具体 地 说 ， 一 种 寄存 器 传送 语言 ( RTL) 来 描述 数字 电路 ， 例 如 
Verilog 和 VHDL， 后 者 即 超 高 速 集成 电路 (VHSIC) HDL。 虽 然 可 以 在 RTL 中 直接 使 用 布 
尔 表达 式 ， 但 设计 师 通 常会 使 用 诸如 “ if-else ”语句 这 样 的 高 层次 描述 方式 来 描述 电路 。 例 
如 ， 下 列 语 句 描述 了 图 1-1 中 数据 选择 模块 的 行为 ， 其 中 x 用 于 选择 加 法 器 (“和 值 ”) 或 者 
Rika (“FEAR”) 的 输出 作为 最 终结 果 : 

if (x = 0) 

result = sum; 
else 


result = product; 


以 上 的 “if-else” 语 句 与 公式 (1-5) 中 的 逻辑 表达 式 等 价 ， 其 中 s、p 和 r 分 别 表示 “ 和 
值 ” 的 一 位 、“ 乘 积 ” 的 一 位 和 “结果 值 ”的 一 位 : 
r = ((NOT x) AND s) OR (x AND p) (1-5) 
当 x=0 时 ,“ 结 果 值 ” 即 为 “和 值 ”， 在 公式 (1-5) 中 取 r 的 一 位 、s 的 一 位 和 p 的 一 位 。 
r = ((NOT 0) AND s) OR (0 AND p) 
r=(1 AND s) OR (0 AND p) 
r=sORO 
=S 


相反 ， 当 x= 1 时, r 将 变 为 p， 如 下 所 示 : 


r= ((NOT 1) AND s) OR (1 AND p) 
r = (0 AND s) OR (1 AND p) 
r=0ORp 
r=p 
设 图 1-1 中 的 sum, valuel 和 value2 都 是 8 位 数 ， 则 HDL 语句 “sum = valuel + value2” 
中 的 + 运算 符 实 现 了 类 似 图 1-7 中 的 8 位 加 法 器 的 功能 ， 此 处 进位 输入 和 进位 输出 被 忽略 。 
RTL 描述 可 以 用 于 仿真 ， 以 验证 电路 描述 的 准确 性 。 然 后 , RTL 描述 可 以 被 综合 (翻译 ) 
成 被 称 为 网 表 的 等 效 最 小 电路 表达 ， 用 于 进一步 的 仿真 ， 以 验证 电路 的 时 序 要 求 。 最 后 ， 利 
用 FPGA， 网 表 可 以 被 自动 地 映射 到 硬件 上 ， 生 成 逻辑 电路 。 
组 合 和 时 序 电 路 将 分 别 在 第 2 章 、 第 3 章 和 第 4 ~ 6 章 详尽 讨论 。 


1.3 ”计算 机 组 成 


逻辑 设计 要 解决 的 是 关于 电路 描述 、 综 合 、 最 小 化 和 仿真 的 相关 问题 ， 而 计算 机 组 成 则 研 
究 电路 部 件 及 其 物理 关系 ， 这 些 部 件 构成 处 理 核心 (CPU)、 处 理 器 、 存 储 器 、LIO 设备 控制 器 和 
接口 ， 这 些 模块 相互 连接 就 构成 计算 机 。 例 如 ， 图 1-1 中 的 寄存 器 文件 、 加 法 器 、 乘 法 器 和 选 
择 器 组 成 一 个 数据 通路 。 控 制 单元 和 数据 通路 (通过 一 系列 控制 信号 ) 组 合成 所 需 的 运算 单元 ， 
可 以 产生 两 数 之 和 或 其 乘积 。 两 个 内 部 组 织 不 相同 的 CPU 可 以 执行 同一 指令 系统 的 指令 。 例 
如 ，32 位 Intel 和 AMD 处 理 器 可 以 执行 同一 指令 系统 的 指令 ， 但 二 者 的 内 部 组 织 却 大 不 相同 。 
计算 机 技术 的 进步 也 影响 着 计算 机 组 成 。 下 面 列举 了 一 些 改变 微型 计算 机 (例如 ， 图 1-2 
所 示 ) 组 成 的 计算 机 技术 的 进步 : 
o 数据 通路 设计 上 的 进步 使 得 CPU 得 以 更 高 效 地 运行 ， 现 代 处 理 核心 (例如 Intel HEA 
i7 ) 可 以 并 行 执行 多 条 指令 。 
o 存储 器 技术 及 其 组 织 结 构 的 进步 ， 例 如 cache 和 同步 动态 随机 存 取 存储 器 
( SDRAM), 已 经 缩短 了 存储 器 的 平均 读 / 写 时 间 ， 使 得 处 理 器 可 以 将 其 处 理 时 间 更 
多 地 花费 在 执行 指令 上 ， 而 不 是 等 待 从 存储 器 读 取 指 令 和 数据 。 
e 1/0 设备 控制 接口 (例如 USB 1.0、USB2.0 等 ) 的 进步 简化 了 个 人 计算 机 的 操作 。 现 
在 几乎 所 有 的 设备 都 支持 “ 即 插 即 用 ”， 并 且 不 需要 设备 安装 和 重启 系统 。 
o 系统 互联 机 制 的 进步 促成 了 系统 各 组 件 之 间 更 多 的 通信 通路 。 采 用 层次 化 的 通信 通 
路 方便 更 好 地 组 织 各 种 组 件 的 互 连 。 存 储 器 与 诸如 处 理 器 和 GPU 这 样 的 高 速 组 件 之 
间 使 用 高 速 通信 通路 ， 而 与 诸如 IO 设备 这 样 的 低速 组 件 通信 和 则 采用 低速 通信 通路 。 
不 过 ， 供 电 的 限制 仍然 制约 着 处 理 上 器 工作 速度 的 提高 。 例 如 ，2003 4F, Intel 奔腾 4 至 
强 处 理 器 工作 在 3.2GHz， 到 差不多 7 年 之 后 的 2010 年 ，Intel Nehalem 至 强 处 理 器 工作 在 
3.33GHz， 速 度 仅 有 微小 的 提升 [1]。 因 此 ， 由 于 供电 的 限制 ， 从 个 人 计算 机 到 服务 器 ， 再 
到 超大 型 计算 机 系统 (例如 仓储 计算 和 云 计算 平台 )， 设 计 师 构造 更 强大 的 计算 机 的 唯一 方 
法 就 是 使 用 多 处 理 器 。 
复杂 电路 的 组 织 将 在 第 6 章 讨 论 ， 存 储 器 设计 在 第 7 章 讨 论 ，CPU 设计 在 第 8 章 讨 论 ， 
计算 机 设计 在 第 9 章 讨论 。 


1.4 计算 机 体系 结构 
计算 机 组 成 处 理 的 是 计算 机 的 各 个 部 件 的 操作 问题 ， 而 计算 机 体系 结构 处 理 的 是 计算 机 
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的 算术 运算 模块 〈 例 如， 加 法 器 和 乘法 器 ) 和 指令 系统 的 设计 ， 也 涉及 计算 机 系统 性 能 提升 
的 相关 问题 ， 包 括 实现 在 每 秒 钟 内 执行 更 多 指令 、 减 少 程序 的 整体 运行 时 间 和 执行 更 多 的 任 
务 的 方法 。 


1.4.1 流水 线 


流水 线 的 概念 与 分 级 装配 零件 以 便 在 更 短 的 时 间 内 生产 出 更 多 产品 (例如 汽车 ) 的 工厂 
装配 线 相似 。 图 1-9 的 表格 展示 了 一 个 简化 的 三 级 汽车 装配 线 的 工作 过 程 。 如 图 所 示 ， 当 装 
配 线 满 负荷 时 (每 一 级 都 有 一 辆 汽车 在 组 装 )， 每 10 分 钟 就 有 一 辆 汽车 产 出 (假设 装配 一 辆 
车 需要 耗 时 30 分 钟 : 10 分 钟 安 装 发 动机 ，10 分 钟 安装 车 门 ，10 分 钟 安装 车 轮 )。 装 配 线 上 
的 级 数 越 多 ， 且 每 一 级 的 延 时 越 得， 生产 的 汽车 就 越 多 。 例 如 ， 假 设 装配 线 可 以 分 解 成 多 个 
简单 段 ， 每 段 只 需 2 分 钟 完 成 (即时 际 为 2 分 钟 )。 在 本 例 中 ， 理 想 的 情况 下 ， 一 年 内 可 以 
生产 出 超过 260 000 辆 汽车 ， 每 2 分 钟 有 一 辆 车 产 出 。 


第 = 级 ; 安装 车 轮 | | | 汽车 1 | 汽车 2 | 汽车 3 | … 
mam: 安装 车门 | et | 汽车 2 | 汽车 3 | … | … | 
_ 第 一 级 : 安装 发 动机 | 汽车 1 | 汽车 2 | 汽车 3 | … | | 
BBR (例如 ,以 10 分 钟 为 一 个 时 阶 )| 1 | 2 | 3 | 4 | 5 | … 


1-9 简化 流水 汽车 生产 线 示意 图 


在 设计 CPU 时 ， 流 水 线 概 念 用 于 将 CPU 的 数据 通路 组 织 成 多 级 ， 以 便 提高 程序 运行 速 
度 。 考 虑 程序 中 的 语句 “A = B+ C;”， 其 等 价 的 汇编 语言 程序 如 下 : 

Load R1, B // 将 变量 B 的 值 从 内 存 读 入 寄存 器 RI 中 

Load R2, C /将 变量 C 的 值 从 内 存 读 入 寄存 器 R2 中 

Add R3, R1, R2 // 将 R1 和 R2 的 值 相 加 并 将 结果 存 入 R3 

Store A, R3 // 将 求 和 结果 存 入 内 存 中 的 变量 A 

图 1-10 中 的 表格 展示 了 在 由 3 个 流水 级 构成 的 数据 通路 中 4 条 指令 的 执行 情况 : 

e 取 指 级 : 从 内 存 中 读 取 下 一 条 指令 。 

e FBR: 生成 数据 通路 的 控制 信号 。 

© 执行 级 : 执行 指令 。 


| Load r1, B Load r2, C |Add r3, r4, r2| Store A, r3 
Load r1, B Load r2, C |Add r3, r1, r2 | Store A, r3 

















1-10 ”流水 线 机 制 下 的 指令 执行 示意 图 


在 时 钟 周期 了 = 1 时， 从 内 存 中 取出 ( 读 出 ) 指令 “Load R1, B”; T=2 时 ,Load 
指令 正在 译 码 级 被 译 码 ， 而 指令 “Load R2，C” 被 从 内 存 中 取出 。7=3 时， 指令 “Load 
R1，B” 正 在 执行 ， 而 指令 “Load R2, C” Rie, “Add R3，R1，R2” 指 令 正 在 
取 指 。 从 了 = 3 开始， 流水 线 被 填 满 ， 且 全 部 三 级 都 处 于 忙 状态 ， 从 时 钟 周期 3 到 时 钟 周期 
6， 每 个 时 钟 周期 都 有 一 条 指令 被 执行 ， 正 如 图 中 所 示 。 每 一 条 指令 仍然 需要 三 个 时 钟 周 期 
才能 执行 完 ， 但 不 同 指令 的 取 指 、 译 码 和 执行 任务 可 以 重 倒 并 同时 完成 。 三 级 流水 数据 通路 
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由 取 指 、 译 码 和 执行 这 三 个 独立 的 数据 通路 组 成 。 

一 般 而 言 ， 虽 然 流 水 CPU 比 非 流水 CPU 每 秒 可 以 执行 更 多 的 指令 ， 但 是 分 支 和 访 存 时 
间 可 能 会 延迟 某 些 指令 的 执行 。 

浮 点 单元 

流水 线 的 概念 也 应 用 于 复杂 的 算术 运算 模块 ， 例 如 对 浮 点 数 进行 操作 的 浮 点 运算 单元 
( FPU)。 浮 点 指令 的 执行 需要 多 次 算术 运算 和 移 位 操作 ， 而 如 果 这 些 操作 以 流水 方式 执行 ， 
程序 将 会 执行 更 快 。 例 如 ， 考 虑 以 下 对 浮 点 数组 进行 操作 的 for 循环 语句 : 

Float A [100], B [100], € [100]; 

int. ip 

for (1 = 0; i < 100; i++) 

E [sj = A [SJ] +B [F]; 

for 循环 执行 100 次 浮 点 加 法 指令 。 使 用 流水 CPU, ix 100 条 指令 需要 大 约 100 个 时 钟 
周期 完成 。 这 减少 了 执行 for 循环 的 总 时 间 ， 虽 然 每 次 执行 浮 点 加 法 指令 实际 上 都 需要 多 个 
时 钟 周期 来 完成 ， 第 3 章 中 将 会 详细 讨论 。 在 本 例 中 ， 图 1-10 中 所 示 的 执行 级 本 身 将 由 多 
个 流水 级 构成 。 


1.4.2 “并行 性 


当 任务 相互 依赖 时 可 以 采用 流水 线 技术 ， 例 如 执行 指令 所 需 的 取 指 、 译 码 和 执行 任务 。 
男 一 方面 ， 当 任务 相互 独立 且 可 以 并 行 执行 时 则 可 以 采用 并 行 技 术 。 并 且 ， 流水线 技术 和 并 
行 技术 都 要 求 高 可 用 性 的 输入 和 快速 的 输出 处 理 。 只 有 当 工 厂 装配 线 高 效 运 行 、 必 需 的 部 件 
及 时 到 达 且 最 后 成 品 能 被 快速 运 走 时 ， 这 个 工厂 才能 在 更 短 的 时 间 内 生产 出 更 多 的 产品 。 这 
类 似 于 数据 和 指令 被 快速 地 从 内 存 传 送 到 处 理 器 并 且 计 算 结果 被 快速 存 人 人 内存。 为 了 实现 这 
一 目标 ， 需 要 用 高 速 (cache) 存储 器 保存 最 近 使 用 的 指令 和 数据 以 实现 快速 存 取 ， 并 用 低速 
且 大 容量 的 廉价 存储 器 保存 不 同 的 程序 和 数据 。 

下 列 各 小 节 将 简要 介绍 应 用 于 CPU、 处 理 器 和 系统 设计 的 并 行 技术 。 

1. 单 指令 多 数据 流 

得 益 于 IC 技术 的 发 展 ， 芯 片上 可 用 的 晶体 管 数量 不 断 增 加 ， 现 代 处 理 器 开始 包含 可 以 
在 多 个 数据 项 上 并 行 操作 的 特殊 指令 ， 从 而 提升 了 性 能 [5]。 此 类 指令 的 一 个 例子 是 应 用 于 
英特尔 处 理 器 的 单 指令 多 数据 流 (SIMD) 扩展 (SSE) 指令 系统 ， 或 者 应 用 在 AMD 处 理 器 
上 的 3DNow 指令 [6, 7]. 

在 许多 应 用 领域 中 ， 例 如 计算 机 游戏 ， 需 要 通过 多 次 算术 运算 来 生成 单一 的 结果 。 一 个 
虚拟 游戏 对 象 通常 包含 上 和 干 个 数据 点 ， 称 为 顶点。 在 计算 机 屏幕 上 移动 虚拟 游戏 对 象 需要 重 
定位 该 对 象 的 每 一 个 顶点 ， 采 用 的 是 一 种 称 为 顶点 转换 的 技术 。 每 次 顶点 转换 都 需要 奉 干 次 
乘法 和 加 法 运算 来 确定 顶点 的 坐标 位 置 和 对 象 的 旋转 角度 ， 使 用 的 是 将 会 在 第 6 章 中 介绍 的 
二 维 (2-D) 坐标 旋转 数字 计算 机 (CORDIC) 的 旋转 算法 。2-D CORDIC 旋转 流水 数据 通路 
的 设计 和 仿真 也 将 在 第 6 章 讨论 。 

图 1-11 展示 了 包含 4 个 乘法 器 SIMD 数据 通路 ， 可 以 并 行 生 成 4 个 乘积 项 。 在 SIMD 
架构 下 ， 单 个 指令 可 以 在 多 个 数据 项 上 进行 操作 ， 从 而 缩短 了 单个 顶点 转换 所 需 的 总 时 间 。 
利用 通常 在 GPU 中 常用 的 多 SIMD 执行 单元 技术 ， 可 以 制作 更 具 真 实感 的 视频 游戏 。 

通常 ， 在 诸如 奔腾 4 之 类 的 通用 处 理 器 中 采用 的 SIMD 技术 仅 限 于 支持 有 限 的 数据 项 ， 
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[20] 这 对 更 先进 的 游戏 来 说 是 不 够 的 。 另 一 方面 ，GPU 则 包含 类 似 的 更 专用 的 数据 通路 以 提升 
性 能 。 





1-11 SIMD 多 数据 通路 


2. 指令 级 并 行 

随 着 集成 电路 上 可 用 的 晶体 管 数量 的 增长 ， 计 算 机 性 能 的 进一步 提升 要 求 并 行 ( 即 同 
时 ) 执行 多 条 指令 。 在 这 种 情况 下 ，CPU 的 数据 通路 将 设计 成 从 内 存 一 次 取出 多 条 指令 、 主 
码 多 条 指令 并 同时 执行 多 条 相互 独立 的 指令 [8]。 

确定 相互 独立 的 指令 序列 可 以 由 处 理 器 内 部 的 硬件 动态 实现 (例如 英特尔 酷 窒 17)， 也 
可 以 由 编译 器 静态 实现 (例如 英特尔 基于 安 腾 的 系统 )。 运 行 于 基于 安 腾 的 系统 上 程序 所 含 
的 汇编 指令 由 编译 右 组 织 成 指令 束 ， 每 个 指令 束 最 多 包含 三 条 独立 指令 。 人 处理 器 并 行 地 取 
指 、 译 码 和 执行 每 个 指令 束 中 的 指令 。 不 过 ， 现 有 的 程序 必须 被 重新 编译 才能 利用 安 腾 数 据 
通路 的 优势 ， 许 多 人 相信 这 是 其 没落 的 原因 。 

图 1-12 展示 了 包含 于 一 个 静态 生成 的 指令 
束 的 三 条 指令 的 指令 级 并 行 (ILP) 执行 过 程 。 
在 每 个 时 钟 周 期 中 ， 三 条 指令 被 取 指 、 译 码 和 
执行 。 首 先 ，I0 至 12 三 条 指令 被 取 指 ， 然 后 当 
这 三 条 指令 被 译 码 时 ， 下 三 条 指令 I3 BIS 被 





取 指 。 从 第 3 个 时 钟 周期 开始 ，9 条 指令 被 并 lag 
BoE, AAT, REA Ze Ate ED 图 1-12 ”展示 同时 完成 三 条 指令 的 取 指 、 译 码 
依赖 关系 使 得 可 用 的 硬件 资源 得 不 到 最 充分 的 和 执行 过 程 的 指令 级 并 行 机 制 


[21] 利用 。 
对 各 个 基准 测试 程序 的 研究 表明 只 有 有 限 数 量 的 独立 指令 可 以 同时 并 行 执行 [9]。 因 此 ， 
这 导致 了 一 个 限制 ， 即 到 底 多 少 个 晶体 管 能 被 用 于 高 效 执行 单一 程序 ， 并 在 执行 程序 时 充分 
利用 可 用 的 硬件 。 因 此 ， 随 着 晶体 管 数量 的 不 断 增 加 ， 设 计 师 并 不 能 用 过 多 的 晶体 管 进 一 步 
提升 处 理 器 核 的 效率 。 有 了 时， 一 个 处 理 器 核 被 设计 为 可 同时 运行 多 个 (例如 两 个 ) 程序 以 提 
升 效 率 ， 称 为 多 线程 。 更 进一步 ， 充 分 利用 不 断 增长 的 晶体 管 数量 的 一 个 普遍 做 法 是 在 单 
芯片 上 实现 多 个 相同 的 处 理 核 ， 从 而 构成 多 核 处 理 器 。ILP 和 多 线程 体系 结构 将 在 第 8 章 中 
讨论 。 
3. 多 核 处 理 器 
图 1-13 展示 了 一 个 四 核 处 理 器 的 结构 。 其 中 的 每 个 处 理 占 核 都 可 以 执行 一 个 或 少量 的 
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程序 ， 每 个 程序 称 为 一 个 线程 ， 从 而 让 多 核 处 理 器 可 以 同时 执行 多 个 任务 。 由 于 在 任何 特定 
的 时 间 点 ， 每 个 处 理 器 核 都 可 能 执行 不 同 的 指令 并 操作 不 同 的 数据 项 ， 因 此 多 核 处 理 器 被 认 
为 采用 了 多 指令 多 数据 (MIMD) 结构 [5]。 回 忆 一 下 单条 SIMD 指令 同时 操作 多 个 数据 项 的 
情况 。 同 样 ， 单 指令 单数 据 ( SISD) 这 一 术语 定义 了 一 种 单 核 执 行 非 SIMD 指令 的 结构 ; 然 
m, ILP 可 以 被 用 于 加 速 SISD 的 执行 。 


四 核 处 理 器 
核 1 核 2 核 3 pa 
SA 


1-13 IR cache 存储 器 的 四 核 处 理 器 


图 1-13 同时 也 展示 了 一 种 共享 存储 器 系统 的 结构 。 在 此 例 中 ,为 了 更 快 地 运行 程序 ， 
程序 员 需 要 创建 多 个 程序 线程 ， 这 被 称 为 多 线程 编程 ， 方 法 是 将 程序 中 的 数据 结构 在 多 个 线 
程 之 间 分 割 ， 而 这 些 线程 可 以 并 行 或 并 发 地 在 多 核 处 理 器 上 执行 ， 或 者 概括 而 言 ， 在 一 个 共 
享 存 储 器 的 多 处 理 器 系统 中 运行 。 每 个 线程 需要 操作 程序 数据 的 子 集 ， 并 与 其 他 线程 进行 同 
步 和 通信 。 一 个 线程 可 以 访问 其 自身 的 局 部 变量 ， 而 在 多 线程 程序 中 的 所 有 线程 可 以 共享 并 
操作 全 局 声明 的 变量 。 而 且 ， 这 些 核 可 以 执行 不 同 程序 的 线程 。 

其 他 类 型 的 多 核 处 理 器 包含 由 不 同 复杂 度 的 核 构成 的 异 构 多 核 ， 以 便 支持 不 同 应 用 的 处 
理 需 求 [10]。 例 如 ， 一 个 ILP 核 可 以 用 于 时 序 计算 ， 而 一 个 大 型 SIMD 核 可 以 用 于 并 行 地 对 
大 量 数据 项 进行 操作 ， 适 合 也 需要 数据 并 行 计算 的 应 用 。 可 以 预见 ， 同 时 需要 时 序 和 数据 并 
行 计算 的 应 用 在 异 构 多 核 处 理 器 上 运行 得 比 在 同 构 多 核 处 理 器 上 要 快 。 处 理 需 往往 使 用 多 级 
cache 存储 器 (如 图 1-2 Bras) 来 促进 快速 片上 指令 和 数据 访问 ， 并 在 不 同 核 间 共享 数据 。 

图 1-14 为 第 4 代 四 核 英 特 尔 i7 处 理 器 的 结构 图 ， 每 个 核 拥 有 二 级 cache 存储 器 (图 中 
RER) M L3 HF cache 存储 器 ， 以 及 一 个 图 形 处 理 器 。 

然而 ， 随 着 片上 晶体 管 数量 及 其 转换 速度 的 提高 ， 持 续 的 电源 消耗 总 量 和 散热 量 也 会 增 
加 。 这 限制 了 单个 处 理 器 上 可 以 容纳 的 核 的 数量 。 电 力 和 散热 需求 可 以 用 称 作 热 设计 功率 的 
指标 度量 ， 其 中 可 以 用 于 更 好 地 平衡 电源 消耗 和 散热 需求 的 方法 有 多 种 ， 例 如 动态 降低 晶体 
管 转换 速度 (即时 钟 频 率 )。 这 些 方法 虽然 有 时 可 以 提升 处 理 器 的 性 能 ， 但 是 如 果 想 进一步 
提升 性 能 还 需要 用 多 个 处 理 器 (每 一 个 处 理 器 都 可 以 是 多 核 ) 来 构造 多 处 理 器 系统 。 

4. 多 处 理 器 系统 

多 处 理 器 系统 可 以 采用 共享 存储 器 机 制 或 者 消息 传递 机 制 。 在 共享 存储 器 多 处 理 器 系统 
中 ， 操 作 系统 要 有 “线程 感知 ”能 力 以 便 每 个 线程 都 能 快速 地 访问 其 局 部 变量 。 然 而 在 消息 
传递 系统 中 ， 线 程 必须 通过 发 送 和 接收 信息 来 进行 通信 ， 在 消息 传递 系统 中 线程 没有 可 访问 
的 共享 变量 。 


|: 指令 cache 
D: 数据 cache 
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1) 第 四 代 英 特 尔 酷 蹇 i7 处 理 嚣 Die 结构 图 
2 22nm Has well 三 栅 3- 了 DD 三 极 管 
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所 有 指定 的 产品 、 日 期 各 数字 都 是 基于 当前 预期 
的 初步 数据 ， 如 有 更 改 ， 想 不 另行 通知 


1-14 第 四 代 英 特 尔 酷 害 i7 处 理 器 的 剖面 图 (来 源 : 英特尔 公司 许可 ) 


多 处 理 硕 系统 可 以 并 行 和 并 发 地 执行 多 个 线程 。 因 此 这 种 工作 方式 提高 了 系统 的 吞吐 
量 ， 即 系统 在 单位 时 间 内 可 以 执行 的 任务 数 。 运 行 一 个 科学 应 用 (例如 仿真 海浪 ) 所 必须 具 
备 的 每 秒 浮 点 运算 次 数 (FLOPS)， 或 者 在 差不多 几 秘 钟 的 一 小 段 时 间 内 系统 能 够 处 理 的 谷 
歌 搜 索 次 数 ， 都 是 系统 吞吐 量 的 实例 。 这 些 系统 通常 使 用 大 量 存 储 器 并 在 各 个 单独 的 处 理 需 
之 间或 者 互联 的 处 理 器 组 之 间 分 区 使 用 。 

图 1-15 展示 了 有 三 个 节点 的 共享 存储 器 多 处 理 器 系统 结构 图 。 在 此 例 中 ， 每 个 节点 都 
由 一 个 双核 处 理 器 、 存 储 占 和 一 个 节点 间 通 信 接 口 组 成 。 每 个 核 都 可 以 访问 3 、M1 和 M2 
存储 器 。 共 享 存 储 器 多 处 理 器 系统 被 用 于 各 种 服务 器 的 设计 。 


节点 0 节点 1 
PO P1 











通信 接口 (C10) Wi 通信 接口 (CI1) | eae 通信 接口 (Cl2) 


1-15 由 三 节点 组 成 的 共享 存储 器 多 处 理 器 系统 的 体系 结构 


为 一 方面 ， 多 个 网 络 系 统 可 以 构造 成 一 个 消息 传递 多 处 理 器 系统 ， 其 中 的 每 一 个 网 络 系 
统 可 以 是 单 处 理 器 系统 或 者 服务 器 节点 。 节 点 组 成 集群 ， 并 以 通过 网 络 发 送 和 接收 消息 的 方 


-F te 19 


EA TIE To HU, CERRI AE aT a HRS A SR AE ES ELT BL 
被 当 作 现代 超级 计算 机 系统 用 于 科学 计算 ， 要 求 非常 高 的 FLOPS 指标 。 

集群 和 仓库 规模 计算 机 提供 了 可 用 性 (如 果 一 台 服 务 器 有 骨 演 ， 其 他 的 服务 器 还 能 继续 工 
作 )、 交 互 式 应 用 (例如 在 线 购 物 、 谷 歌 、Facebook、 电 子 银行 等 ) 和 大 规模 存储 与 计算 ( 例 
如 云 计算 )。 电 力 分 布 和 散热 问题 是 当前 超大 型 计算 系统 设计 师 面临 的 挑战 。 多 核 和 共享 存 
fifi ts Zo MSHS ASU 10 章 中 进一步 讨论 。 


1.5 ”计算 机 安全 


计算 机 和 网 络 安全 如 今 变 得 越 来 越 重要 ， 需 要 构造 新 型 的 计算 机 体系 结构 概念 ， 以 便 能 
检测 来 目 诸 如 病毒 或 间谍 软件 等 恶意 软件 的 攻击 。 个 人 、 政 府 和 商业 组 织 都 拥有 需要 防范 被 
攻击 的 数字 资产 (程序 和 数据 )， 在 许多 情况 下 也 要 防止 员工 未 经 授权 的 访问 。 便 携 设 备 是 
物理 攻击 的 额外 目标 ， 目 的 是 改变 设备 的 功能 或 运行 逆向 工程 任务 。 

因为 IC 相 比 于 硬盘 、 闪 存 驱 动 器 和 存储 锅 而 言 更 加 安全 ， 所 以 计算 机 设计 师 们 开始 对 
一 类 专用 和 通用 处 理 吉 产 生 了 兴趣 ， 这 类 处 理 需 专门 为 计算 机 安全 应 用 而 设计 并 经 过 安全 加 
固 ， 例 如 用 于 实现 安全 的 数据 存储 、 安 全 通信 、 安 全 电子 商务 和 安全 程序 执行 等 。 第 11 章 
将 介绍 安全 计算 机 体系 结构 。 
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练习 


1.1 按 要 求 表示 下 列 数字 : 
a. FA 4 位 无 符号 数 表 示 12 
b. 用 5 位 无 符号 数 表示 12 
c. 用 4 位 2 的 补 码 表示 +1 
d. 用 4 位 2 的 补 码 表示 -1 
e. 用 5 位 2 的 补 码 表示 一 1 
f. FA 4 位 原 码 表示 + 1 
g. 用 4 位 原 码 表 示 一 1 
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1.10 


tA 


L12 


1.13 


1.14 
1.15 
1.16 
be 
1.18 
1.19 


创建 一 个 与 表 1-1 类 似 的 表格 ， 需 要 有 4 位 无 符号 数 、2 的 补 码 数 和 原 码 三 列 。 
已 知 浮 点 数 有 1 位 符号 位 ，4 位 偏 置 指数 ，11 位 尾数 ， 其 中 偏 置 常数 =7， 则 - 5.375 的 16 位 浮 
点 数 表示 形式 写成 十 六 进 制 数 是 什么 ? 
已 知 浮 点 数 有 1 位 符号 位 ，4 位 偏 置 指数 ，11 位 尾数 ， 其 中 偏 置 常数 = 7， 则 与 浮 点 数 0x3400 等 
值 的 实数 是 什么 ? 
已 知 浮 点 数 有 1 位 符号 位 ，4 位 偏 置 指数 ，11 位 尾数 ， 其 中 偏 置 常数 = 8， 则 与 浮 点 数 0x3400 等 
值 的 实数 是 什么 ? 
已 知 浮 点 数 格 式 为 1 位 符号 位 ，4 位 偏 置 指数 ，11 位 尾数 ， 其 中 偏 置 常数 为 7， 则 可 表示 的 16 位 
最 大 正 浮 点 数 是 什么 ? | 
已 知 浮 点 数 格式 为 1 位 符号 位 ，4 位 偏 置 指数 ，11 位 尾数 ， 其 中 偏 置 常 数 为 8， 则 可 表示 的 16 位 
最 大 正 浮 点 数 是 什么 ? 
已 知 16 位 浮 点 数 格式 为 4 位 偏 置 指数 ， 偏 置 常数 =7 且 11 位 尾数 ， 请 回答 
a. 当 符号 位 = 0， 偏 置 指数 = 1， 且 尾数 = 0 时 ， 浮 点 数 表示 的 实数 是 多 少 ? 
b. 当 符 号 位 = 1， 偏 置 指数 = 14， 且 尾数 = (111111111112 时 ， 浮 点 数 表示 的 实数 是 多 少 ? 
用 16 位 浮 点 数 表示 下 列 实 数 ， 其 中 4 位 偏 置 指数 ， 偏 置 常 数 =7 A 11 位 尾数 : 
a. 1.0 l 
b. 0.5 
c. 0.25 
设 16 位 浮 点 数 有 4 位 偏 置 指数 ， 偏 置 常数 = 8 且 11 位 尾数 ， 请 回答 : 
a. 当 符号 位 = 0， 偏 置 指数 = 1， 且 尾数 = 0 时 ， 浮 点 数 表 示 的 实数 是 多 少 ? 
b. 当 符 号 位 = 1， 偏 置 指数 = 14， 且 尾数 = (11111111111), 时 ， 浮 点 数 表 示 的 实数 是 多 少 ? 
用 16 位 浮 点 数 表 示 下 列 实 数 ， 其 中 4 位 偏 置 指数 ， 偏 置 常数 =8 且 11 位 尾数 : 
a. 1.0 
b. 0.5 
c. 0.25 
画 出 一 个 与 图 1-1 类 似 的 数据 通路 ， 用 于 产生 高 级 语言 程序 中 的 语句 “A = A + B;” 中 的 变 
量 A 的 结果 ， 其 中 变量 A 和 变量 B 的 值 在 运算 前 从 外 部 存储 器 中 读 入 并 存储 在 寄存 器 中 。 只 能 
使 用 两 个 寄存 器 。 而 且 ， 变 量 A 的 初始 值 和 A + B 的 最 终结 果 值 使 用 同一 个 寄存 器 。 请 标 出 数据 
通路 中 所 有 逮 辑 模块 并 指出 控制 器 需要 完成 的 功能 。&A + B 的 最 终 计算 结果 要 保持 在 寄存 器 中 。 
CPU 可 以 执行 加 法 、 减 法 、 乘 法 和 除法 操作 。 假 设 4 种 算术 运算 功能 中 的 每 一 种 用 一 个 单独 的 
模块 实现 ， 请 画 出 一 个 数据 通路 图 ， 用 于 产生 高 级 语言 程序 中 的 语句 “A = A + B*C;” BY “A 
= A + B/C ;” 中 的 变量 A 的 结果 ,其 中 变量 A、B 和 C 的 值 在 运算 前 从 外 部 存储 器 中 读 人 并 
存储 在 寄存 器 中 。 请 使 用 不 超过 三 个 寄存 器 。 该 数据 通路 要 能 输出 A + B*C 或 者 A + B/C 的 
结果 。 求 出 的 最 终结 果 要 保持 在 一 个 寄存 器 中 。 
+ 诺 依 曼 体 系 结构 的 瓶颈 是 什么 ? 
画 出 三 输入 CMOS 与 非 门 的 晶体 管 级 原理 图 ， 并 给 出 当 唱 体 管 分 别处 在 开 和 关 状 态 时 的 真 值 表 。 
画 出 三 输入 CMOS 或 非 门 的 晶体 管 级 原理 图 ， 并 给 出 当 晶 体 管 分 别处 在 开 和 关 状 态 时 的 真 值 表 。 
CMOS 中 的 “C” 代 表 什 么 ? 并 回答 为 什么 这 很 重要 ? 
流水 线 和 并 行 体 系 结构 的 不 同 点 是 什么 ? 请 说 明 各 自 的 应 用 领域 。 
请 解释 晶体 管 数量 的 增长 如 何 影响 计算 机 的 体系 结构 。 
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什么 是 高 效 处理 核 ? 
请 解释 为 何 要 采用 并 行 处 理 进 一 步 提高 性 能 。 
画 出 SIMD 数据 通路 以 加 速 下 列 for 循环 语句 的 执行 : 


for(i = 0; i< 4; it) 
sum = sum + array [i]; 


画 出 SIMD 数据 通路 以 加 速 下 列 for 循环 语句 的 执行 : 


for(i = 0; i< 4; itt) 
sum = sum + a[i] * b[i]; 


ILP 有 一 个 限制 。 请 问 这 个 限制 来 自 何 处 ， 而 处 理 器 的 设计 者 如 何在 LP 技术 之 外 提升 性 能 ? 
请 解释 采用 多 处 理 器 系统 的 原因 。 


计算 机 安全 


1.26 


计算 机 安全 (理解 安全 ): 选 做 11.1 ~ 11.11 题 。 参 考 11.1 节 。 请 学 生 自 行 阅读 该 节 。 
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第 2 章 | 


Digital Logic Design and Computer Organization with Computer Architecture for Security 


组 合 电路 : 小 型 设计 





2.1 简介 


. 第 1 章 中 简单 介绍 了 组 合 电路 以 及 它们 在 数字 系统 中 的 应 用 。 在 这 一 章 里 ,我 们 将 涉 
及 小 的 组 合 电路 设计 方法 ,但 这 些 方 法 与 设计 大 的 组 合 电 路 用 到 的 方法 有 所 不 同 。 而 且 ， 当 
我 们 手动 进行 最 小 化 设计 时 ， 我 们 将 会 限制 输入 引 脚 的 个 数 为 4 个 ， 对 于 一 些 输入 个 数 虽 然 
超出 了 4 但 不 是 很 大 的 情况 〈 比 如 5 个 或 6 个 )， 我 们 也 会 使 用 最 小 化 软件 进行 最 小 化 设计 。 
对 比 而 言 ， 大 的 组 合 电路 需要 有 更 多 的 输入 引 脚 ， 可 以 使 用 小 的 电路 模 志 实现 。 关于 大 的 组 
合 电 路 设计 的 方法 将 会 在 第 3 章 进行 介绍 。 

小 的 组 合 电路 中 输入 和 输出 之 间 的 关系 由 真 值 表 确 定 ， 而 真 值 表 是 由 描述 的 设计 问题 
决定 的 。 例 如 一 个 两 位 无 符号 数 的 乘法 器 ， 如 图 2-1 中 的 框图 所 示 ， 一 个 两 位 无 符号 的 数 
A = aay) 被 一 个 两 位 无 符号 的 数 B= bpo 乘 ， 得 到 一 个 4 位 的 无 符号 数 = ppzpipo。 在 这 个 
图 中 ， 大 写 和 小 写字 母 分 别 用 于 表示 多 位 的 和 一 位 的 输入 /输出 。 另 外 ， 画 线 箭 头 表 示 了 
多 位 的 输入 输出 (图 2-la 所 示 )。 而 且 ， 多 位 的 输入 输出 也 可 以 用 粗 线 箭头 表示 〈 如 图 2-1b 
所 示 )。 

K 2-1 表示 了 无 符号 乘法 器 的 真 值 表 。 例 如 真 值 表 中 所 示 , HA=3 = (11, WM B=2= 
(10): 得 到 的 结 采 是 P= 6 = (0110),。 每 一 个 ps 到 po 的 输出 值 都 标识 了 一 个 由 4 位 输入 a 

ao, bi 和 bo 对 应 的 逻辑 功能 。 


A=ala0 B=b1b0 A =a1a0 B=b1b0 





P =p3p2p1p0 P =p3p2p1p0 
a) 划 线 箭头 表示 多 位 的 输入 /输出 b) 粗 线 箭头 表示 多 位 的 输入 /输出 


2-1 2 位 无 符号 乘法 器 电路 框图 ， 两 种 方式 表示 多 位 的 输入 / 输出 


表 2-1 2 位 无 符号 乘法 运算 模块 的 真 值 表 
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真 值 表 包 含 了 使 一 个 输出 位 (比如 po) WO 的 所 有 的 输入 逻辑 情况 ， 也 包含 了 使 一 个 输 
出 位 为 1 的 所 有 的 输入 逻辑 情况 。 如 果 一 个 输出 位 始终 为 0 或 始终 为 1， 那么 这 个 位 不 表示 
输入 所 对 应 的 逻辑 功能 ， 应 当 在 真 值 表 中 删 去 。 真 值 表 的 行 数 由 电路 的 输入 引 脚 个 数 决定 。 
如 果 是 3 个 输入 端 〈 每 个 端口 值 为 0 或 1)， 就 应 当 有 8 种 可 能 的 组 合 方式 ， 或 者 说 在 真 值 表 
中 应 当 有 8 行 ; 如 果 是 4 个 输入 端 ， 就 应 当 有 16 行 ， 如 表 2-1 所 示 。 通 常情 况 下 ， 如 果 有 n 
个 输入 端 ， 真 值 表 中 应 当 会 有 2” 行 。 在 硬件 上 ， 真 值 表 会 有 两 种 实现 方式 : 

e 整个 真 值 表 可 以 存储 在 查找 表 (LUT) 中 ， 例 如 ， 表 2-1 可 以 存储 在 深度 为 16 条 、 

宽度 为 4 位 的 存储 器 中 。 

e 一 个 最 小 的 逻辑 电路 是 由 每 一 个 与 输入 所 对 应 的 输出 决定 的 。 

查找 表 的 优势 在 于 不 需要 更 多 的 设计 步骤 ， 真 值 表 被 原样 存储 在 集成 芯片 内 部 的 存储 器 
模块 中 。 然 而 ， 查 找 表 的 缺点 却 是 双重 的 : 

o 所 有 的 0 和 1 的 输出 值 都 要 被 保存 ， 这 样 将 使 用 更 多 的 硬件 资源 。 

eo 查找 表 是 典型 的 慢 输出 ， 因 为 它 需 要 较 长 的 时 间 去 读本 身 的 内 容 。 

相反 ， 一 个 最 小 的 逻辑 电路 实现 了 使 输出 为 1 或 者 说 使 输出 为 0 的 输入 逻辑 电路 。 它 使 
用 更 少 的 逻辑 门 、 更 少 的 输入 门 还 有 更 少 的 连接 线路 ， 因 此 占用 更 少 的 硬件 资源 。 

另 一 方面 ， 存 储 在 LUT 中 的 真 值 表 可 以 应 用 于 可 配置 集成 电路 ， 例 如 现场 可 编程 门 陈 
列 (FPGA). FPGA 芯片 中 每 一 个 查找 表 模 块 都 可 以 用 不 同 的 真 值 表 进行 更 新 ， 去 实现 一 个 
不 同 的 组 合 逻辑 。 

在 这 章 中 的 其 他 部 分 ， 我 们 将 涉及 如 何 将 一 个 真 值 表 转 换 为 和 它 等 效 的 逻辑 表达 ， 这 种 
逻辑 表达 会 在 NAND 或 者 NOR 电路 上 实现 。 手 工 和 算法 的 逻辑 最 小 化 技巧 、 最 小 化 软件 的 
使 用 、Verilog 硬件 描述 语言 电路 的 描述 ， 以 及 电路 设计 中 使 用 的 计算 机 辅助 设计 CCAD) 工 
具 ， 我 们 将 举例 进行 讨论 。 这 一 章 还 提出 了 电路 时 序 和 潜在 的 时 序 风险 。 其 他 的 门 电路 ， 比 
如 标准 门 电 路 和 三 态 缓冲 ， 也 都 进行 了 讨论 。 这 里 面 履 盖 了 很 多 应 用 ,包括 互 连 体系 结构 中 
用 到 的 模块 设计 。 本 章 中 还 包含 了 一 些 标准 的 小 的 组 合 电路 模块 的 设计 实例 。 


信号 命名 标准 ， 
回忆 一 下 ， 一 个 信号 是 指 电路 的 输入 或 输出 为 1 或 0。 同样 ， 每 一 个 信号 名 都 有 一 个 极 
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性 指示 符 ， 该 极 性 指示 符 定 义 了 信号 值 1 或 者 0 在 电路 中 的 含义 。 信 和 号 极 性 定义 如 下 : 

。 高 电 平 有 效 信号 极 性 一 一 当 信和 号 被 称 为 高 电 平 有 效 时 ， 逻 辑 1 表示 活跃 、 有 效 或 使 能 
状态 ; 逻辑 0 代表 不 活跃 、 无 效 或 禁止 状态 。 通 常 我 们 用 不 带 前 缀 或 者 后 缀 符号 的 
信号 名 称 来 标识 一 个 高 电 平 有 效 信号 (例如 x)。 

o (REF ARES mt las RAI AY, E 0 表示 活跃 、 有 效 或 使 能 状 
AS; 逻辑 1 代表 不 活跃 、 无 效 或 禁止 状态 。 通 常 我 们 用 带 前 缀 或 者 后 缀 符号 的 信号 名 称 
来 标识 一 个 低 电 平 有 效 信号 。 例 如 ，_x、x"、 人 3 或 者 并 都 可 以 用 来 表示 低 电 平 有 效 信号 。 

除非 男 作 说 明 ， 我 们 一 律 采 取 下 划 线 (C) 前 级 ,例如 _x 或 者 _ 针 分别 定 义 了 一 个 低 电 

平 信号 和 多 个 低 电 平 信号 。 
画 出 一 位 反 相 峰 的 框图 并 在 适当 的 地 方 标 出 其 输入 和 输出 信号 。 电 路 的 输入 
为 一 位 数据 和 标记 为 _c 的 低 电 平 控制 信号 。 当 _c 为 不 活跃 〈 无 效 、 禁 止 ) 时 ， 电 路 的 输出 


为 与 输入 相 比较 没有 改变 的 一 位 数据 ; 当 e 为 活跃 (有 效 、 
使 能 ) 时 ， 电 路 的 输出 为 输入 的 反 相 。 反 相 电 路 没有 对 输 
入 的 数据 进行 标记 说 明 ， 方 便 起 见 ， 我 们 将 输入 数据 和 电 。 ‘tes 
路 输出 分 别 标记 为 x 和 y。 | 
解 : 图 2-2 为 有 一 位 输入 x、 输 出 y 和 低 电 平 控制 信号 
_c 的 反 相 电路 框图 。 表 2-2 为 一 位 反 相 器 的 真 值 表 。 因 为 j 
_c 为 低 电 平 信号 ， 所 以 当 _c = 0 (活跃 ) 时 , y=x, 4 c 图 2-2 包含 一 个 低 电 平 控制 信号 
= 1 (不 活路 ) 时 ,y=x。 S PERETE 


R 2-2 包含 一 个 低 电 平 控制 信号 _c 的 一 位 反 相 器 的 真 值 表 
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图 2-3 展示 了 用 于 实现 逻辑 电路 的 符号 和 逻辑 门 的 真 值 表 。 与 (AND) TJ, 3 (OR) 
门 、 与 非 (NAND) 门 、 或 非 (NOR) 门 、 非 (NOT) 门 在 第 1 章 中 有 过 讨论 。 蜡 或 (XOR) 
门 、 同 或 《XNOR) 门 是 有 两 个 输入 的 逻辑 门 。 当 两 个 输入 相同 时 ， 异 或 门 的 输出 为 0， 反 
之 为 1。 相 反 ， 当 两 个 输入 不 同时 ， 同 或 门 输出 为 0， 反 之 为 1。 蜡 或 门 、 同 或 门 都 可 以 看 
作 一 位 比较 器 。 与 非 门 、 或 非 门 是 通用 的 逻辑 门 ， 因 为 它们 可 以 用 来 实现 任何 逻辑 表达 式 。 
除 此 之 外 ， 实 现 它们 时 需要 的 晶体 管 更 少 。 在 集成 电路 内 部 ， 所 有 的 逻辑 实现 都 是 用 与 非 
门 、 或 非 门 实现 的 。 

K 2-3 展示 了 有 两 个 变量 的 函数 /并 和 定义 当 x =0 且 =0 或 者 x=1 且 ”=1 时 ， fH 
值 为 1， 当 x My 取 其 他 情况 下 的 值 时 ,7 的 值 为 0。 公式 (2-1) 是 一 种 表示 真 值 表 的 布尔 
表达 式 ， 点 〈”“'”) 表示 与 运算 ,“+” 表 示 或 运算 ， 横 线 表示 非 运算 。 

Fs“ (2-1) 
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图 2-3 ”基础 的 逻辑 门 符号 和 其 对 应 的 真 值 表 


X 
0 
0 
l 
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如 果 取 遍 了 一 个 逻辑 表达 式 的 输入 值 都 能 产生 出 相同 的 真 值 表 ， 那 么 这 个 逻辑 表达 式 就 
等 价 于 其 真 值 表 。 例 如 ， 公 式 〈2-1 ) EK 2-3 的 输入 下 产生 相同 的 输出 ， 如 下 所 示 : 
f=0-0+0-0=1°1+0:0=1+0=1 
f=0-1+0°1=1°-0+0-0=0+0=0 
f=1°:0+0+1=0°1+0*1=0+0=0 
f=1-1+1°1=0-04+1-1=0+1=1 

公式 (2-1) 只 包含 了 两 个 逻辑 项 Xx. Y 和 x y， 它 们 对 应 使 得 f 的 值 为 1 的 输入 逻辑 。 
通常 ， 与 (AND) 运算 可 以 不 用 任何 符号 表示 (没有 “，”)， 如 公式 (2-2) 所 示 。 


x=0 H y=0: 
x=OH y= 1: 
x=1Hy=0: 
x=l1Hy=l1: 


2.2.1 ”乘积 的 和 表达 式 


当 一 个 布尔 表达 式 的 输入 满足 使 其 输出 信号 f= 1 的 条 件 时 (例如 公式 (2-2 ))， 该 表 


表 2-3 两 变量 函数 


f=xy+xy 


f 
l 
0 
0 
1 
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达 式 称 为 乘积 的 和 (SOP)。 表 达 式 中 的 每 一 项 都 用 每 个 独立 输入 条 件 相 与 (乘积 ) 的 形式 
给 出 ， 因 而 构成 一 个 乘积 项 。 当 一 个 或 者 更 多 的 乘积 项 为 1 时 ， 函 数 输出 /为 1; 因此 ， 
f 就 是 乘积 项 的 或 (加法) 运算 的 结果 。 在 公式 (2-2) 中 ， 当 x 和 ?都 为 0 时 ，x7y= 1, 或 
者 x 和 yy 都 为 1 时 , xy = 1， 因 此 f= 1。 

一 个 SOP 表达 式 可 以 翻译 成 与 其 等 价 的 由 非 门 、 与 门 和 或 门 基本 逻辑 门 组 成 的 逻辑 电路 。 
与 公式 (2-2) 相对 应 的 电路 框图 由 两 级 与 -或 : 
结构 组 成 ， 不 包含 非 门 ， 如 图 2-4 所 示 。 该 电路 g 
由 7 个 信号 组 成 : 输入 信号 x 和 y; 输出 信和 号 S; - f 
REAS t=x, u=y, g=1uM h = xy, Bt 
与 门 电路 生成 中 间 信 号 g 和 有 h， 作 为 或 门 的 输 ”图 2-4 函数 f=XyY+ xy 的 与 或 门 级 结构 框图 
入 信号 用 来 产生 最 终 输 出 fo 

运用 非 门 、 与 门 和 或 门 来 实现 一 个 逻辑 表达 式 比 用 通用 的 与 非 门 和 或 非 门 实现 更 直接 。 

用 与 非 门 实现 SOP 表达 式 

用 与 非 门 代 替 与 - 或 电路 中 所 有 的 非 门 、 与 门 和 或 门 可 以 生成 一 个 只 由 与 非 门 组 成 的 等 
价 电 路 。 这 种 转换 基于 德 摩根 定律 ， 如 公式 (2-3) 所 示 。 与 非 运算 符 被 表示 为 与 门 连接 一 
个 非 门 的 形式 (例如 xy)， 或 非 运算 符 被 表示 为 或 门 连接 一 个 非 门 的 形式 (例如 xz +7): 

定律 1: Xy = 和 X+Yy 
定律 2; %+Y=%Y 

定律 1 中 的 妙 和 #* +y 两 个 表达 式 可 以 生成 相同 的 真 值 表 ， 所 以 说 它们 是 等 价 的 。 同 样 ， 
定律 2 中 的 x*+yY 和 xy 也 是 等 价 的 。 这 些 定律 同样 适用 于 若干 个 变量 。 定 律 1 表明 了 一 个 有 反 
相 输 入 的 或 门 和 一 个 没有 反 相 输入 的 与 非 门 是 逻辑 等 价 的 。 定 律 2 表明 了 一 个 有 反 相 输入 的 
与 门 和 一 个 没有 反 相 输入 的 或 非 门 是 逻辑 等 价 的 。 

考虑 图 2-4 中 的 与 -或 电路 。 电 路 可 以 通过 以 下 步骤 转换 成 只 有 与 非 门 的 电路 : 

1 ) 将 一 个 二 输入 的 与 非 门 的 输入 连接 起 来 ， 作 为 与 非 门 等 价 的 与 非 门 逻辑 代替 电路 中 
的 每 一 个 非 门 ， 如 下 图 所 示 ， 即 y=X*%=%。 





(2-3 ) 


2) 在 中 间 信 号 g Al h WY mI A SE 
门 ， 如 图 2-5 所 示 。 这 个 操作 并 不 会 影响 电路 
行为 ， 因 为 两 个 非 门 不 会 改变 原始 信号 的 值 “ 
(例如 g = 2). 

3) 用 与 非 门 替换 每 一 个 与 - 非 门 的 电路 
组 合 ， 如 图 2-6 AR; 一 个 与 非 门 等 价 于 一 个 
与 门 后 面 跟着 一 个 非 门 的 组 合 。 内 部 非 门 在 
图 2-5 中 用 小 圆圈 表示 。 

唯一 一 个 没有 转换 成 与 非 门 的 是 有 反 相 输入 的 或 门 。 根 据 德 摩根 定律 1: gh=g+h, X 
样 的 逻辑 门 是 和 与 非 门 等 价 的 。 

4) 用 与 非 门 代替 有 反 相 输入 的 或 门 的 电路 框图 如 图 2-7 所 示 。 

图 2-7 中 由 与 非 门 组 成 的 电路 结构 等 价 于 图 2-4 中 的 与 - 或 电路 结构 。 另 外 ， 下 列 布尔 


x 
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2-5 用 两 个 加 在 线路 两 端的 非 门 来 实现 g 
和 hh 的 与 或 电路 图 
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代数 运算 得 出 了 一 个 只 有 与 非 运 算 的 SOP 表达 式 : 





图 2-6 ”用 内 部 非 门 实现 的 图 2-7 只 用 与 非 门 实现 SOP 表 
与 -或 电路 图 达 式 f = xy + xy Hy FREE 


回想 一 下 , f= fF。 用 SOP KARE y +y 代替 式 中 的 了 得: 
| f=%Y+%y 
在 式 子 中 运用 德 摩根 定律 >， 用 (x7) (好 ) 代 替 * 了 +xy。 两 个 与 非 项 xX 了 和 字 又 组 成 了 一 项 新 
的 与 非 项 来 表达 /， 这 样 f 中 就 只 有 与 非 项 ， 如 下 所 示 : 
f=(x7y) (xy) 








2.2.2 ”和 的 乘积 表达 式 


当 一 个 布尔 表达 式 定 义 了 输出 信号 f 的 输入 条 件 使 得 f= 0 时， 我 们 称 其 为 和 的 乘积 
(POS)。 上 市 中 讨论 了 一 个 SOP 的 定义 为 输出 信号 的 输入 条 件 使 得 f= 1。POS 表达 式 中 的 
每 一 项 都 用 每 个 独立 输入 条 件 相 或 (加 法 ) 的 形式 给 出 ， 使 得 f 为 0， 这 样 就 构成 了 一 个 和 
项 ; 当 一 个 和 项 为 0 时 ,信号 f 的 值 为 0， 这样 f 就 是 它 所 有 和 项 的 与 (乘积) 结果 。 同 一 个 
输出 的 SOP Al POS 表达 式 是 等 价 的 ， 它 们 有 相同 的 真 值 表 。 我 们 只 需要 用 一 种 表达 式 (SOP 
或 者 POS) 来 描述 输出 信号 即 可 。 然 而 ，SOP 表达 式 比 POS 表达 式 更 容易 从 直观 上 理解 。 

1. SOP 与 POS 

下 列 规 则 展示 了 输出 了 的 SOP 表达 式 和 POS 表达 式 之 间 的 关系 : 

o 规则 1: f 的 POS 表达 式 = /的 SOP 表达 式 的 补 集 。 

© 规则 2: fH SOP 表达 式 = /的 POS 表达 式 的 补 集 。 

运用 规则 1， 函 数 f 的 POS 表达 式 可 由 f 的 SOP 表达 式 的 补 集 得 到 。 在 真 值 表 中 ， 当 / 
为 0 时 ，f 为 1， 当 f 为 1 时 ，f 为 0。 由 于 f 的 SOP 表达 式 定义 了 f 在 输入 条 件 下 为 1， 所 以 
f 的 SOP 表达 式 的 补 集 就 是 一 个 定义 当 输 入 条 件 下 /为 0 的 POS 表达 式 ， 如 下 表 所 示 : 





这 样 ， 可 推 得 : 





f=f 的 SOP=xy+xY 
由 德 摩根 定律 2， 即 x +y =xy， 得 : 





f=(xy) (x 7) 
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由 德 摩根 定律 1， 即 六 = 元 +7， 对 于 每 一 个 逻辑 项 ， 得 
三 = (无 +7) (无 + 了) 
或 者 写 为 : 
fN POS=(x+y)(x+y) (2-4) 
等 式 中 的 两 个 逻辑 项 (x + yA & + ARAM (BN OR) 项 ， 这 两 个 和 项 通过 与 运算 组 成 了 
一 个 POS 表达 式 。 规 则 2 可 用 于 从 f 的 POS 表达 式 推出 f 的 SOP 表达 式 。 
另外 , fH POS 表达 式 可 以 由 对 偶 原理 得 出 f 的 SOP KAR: 
对 偶 原 理 一 一 表达 式 xy + 7 的 对 偶 表 达 式 为 (Xx*+y) (x +7)， 即 与 和 或 运算 符号 互 换 ， 
与 运算 都 换 成 或 运算 ， 或 运算 都 换 成 与 运算 ， 但 是 无 论 是 对 偶 形式 还 是 非 对 偶 形式 ， 变 量 名 
是 不 变 的 。 
通常 ， 一 个 布尔 代数 规则 的 对 偶 形 式 也 是 合法 的 布尔 代数 规则 ， 例 如 xz (y + z) = xy + xz HY 
RIBS x + yz = (x + (x + z) 也 是 合法 的 布尔 代数 规则 。 如 果 布 尔 代数 规则 里 含有 1 或 者 0， 
在 求 其 对 偶 的 布尔 代数 规则 时 ， 需 将 0 换 成 1 或 者 1 换 成 0， 例如 x+0=x 就 转换 成 x 1 =x。 
通过 真 值 表 获 得 POS RARS = (x +7) (x+y) 的 一 个 简单 的 方法 是 首先 获得 f = xy + xy 
的 对 偶 表 达 式 ， 然 后 将 其 对 偶 表 达 式 每 个 变量 取 反 就 可 获得 POS RARS = (x +7) (x +). 
Clg = xyz + xyz + xyz) SOP 表达 式 ， 求 g 的 POS 表达 式 。 
解 : 首先 求 出 g 的 对 偶 表达 式 : 
8 的 对 偶 表 达 式 =(X+y +2)(x%+y+2)(%+Y+2z) 
将 对 偶 表 达 式 中 的 每 一 个 变量 取 反 ， 就 可 得 到 g 的 POS 表达 式 : 
g 的 POS 表达 式 =(x+7+z) (K+¥ +z) (H+ +z) 加 
通过 函数 f 的 SOP 表达 式 求 出 f 的 POS 表达 式 的 两 种 方法 可 以 总 结 如 下 : 
方法 | : 使 用 恒等式 f=f 的 SOP， 然 后 利用 德 摩根 定律 求 出 。 
方法 上 外: 找 出 f 的 SOP 表示 式 的 对 偶 形 式 ， 然 后 


对 每 一 个 变量 取 反 。 y l 
图 2-8 ÆI TAR (2-4) POS 表达 式 的 或 -与 


电路 图 。 和 与 -或 电路 图 类 似 ,或 -与 电路 图 是 两 级 KLS PORES Orey 
ERETTE PERKE]. POSER RE 的 与 -或 门 级 电路 图 
将 作为 与 门 的 输入 信号 进而 产生 了 的 值 。 | 

2. 用 或 非 门 实现 POS 表达 式 

用 或 非 门 替换 或 与 电路 中 的 非 门 、 或 门 和 与 门 可 以 产生 一 个 等 价 的 只 有 或 非 门 的 电路 。 
这 是 基于 德 摩根 第 二 定律 xy =x*+7Y 得 出 的 结论 。 考 虑 图 2-8 中 的 或 -与 电路 。 该 电路 可 以 通 
过 以 下 步骤 设计 成 只 有 或 非 门 的 电路 : 

1 ) 将 一 个 二 输入 的 或 非 门 的 输入 连接 起 来 ， 作 为 与 非 门 等 价 的 或 非 门 馆 辑 代 兰 电 路 中 
的 每 一 个 非 门 ， 如 下 图 所 示 ， 即 y =x 4x =x, 


2) 在 中 间 信 号 m 和 的 两 端 加 入 两 个 非 门 ， 如 图 2-9 所 示 。 这 个 操作 并 不 会 影响 电路 
行为 ， 因 为 两 个 非 门 不 会 改变 原始 信和 号 的 值 (例如 元 =m)。 
3) 用 或 非 门 蔡 换 每 一 个 或 非 门 的 电路 组 合 ， 如 图 2-10 所 示 。 一 个 或 非 门 等 价 于 一 个 或 
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门 后 面 跟 着 一 个 非 门 的 组 合 。 


x 





2-9 用 加 在 线路 两 端的 两 个 非 门 实现 信号 m 和 nn 的 或 - 与 门 级 电路 图 


唯一 没有 转变 为 或 非 门 是 有 反 相 输入 的 与 门 
(用 内 部 非 门 标记 )。 根 据 德 摩根 第 二 定律 m+n = mn 





可 知 这 样 的 表示 等 同 于 一 个 或 非 门 。 
4) 用 或 非 门 代替 有 反 相 输入 的 与 门 的 电路 框 
图 ， 如 图 2-11 所 示 。 2-10 ”用 内 部 非 门 实现 的 POS 电路 
以 下 的 布尔 代数 可 以 表达 成 只 用 或 非 运 算 的 
POS 表达 式 : x 
f =(x+7) (+y) 
=(x +y)(%+y) (2-5) f 








=(x +y)+(x +y) 
逻辑 项 (x +7) 和 (x+y) 代 表 或 非 项 ， 通 过 或 非 图 2-11 只 用 或 非 门 实现 POS 表达 式 f = 
运算 生成 f。 概 括 地 说 ,一 个 函数 的 SOP Al POS K (x+y) (X+y) 的 电路 图 
达 式 是 等 价 的 ， 且 两 者 都 可 以 生成 相同 的 真 值 表 。 
ATLA, SOP 表达 式 用 于 与 非 门 电路 ，POS 表达 式 用 于 或 非 门 电路 。 


2.3 Msp RIA 

当 一 个 逻辑 表达 式 中 每 一 个 逻辑 项 都 包含 了 所 有 的 输入 变量 或 者 其 反 相 ， 那 么 这 个 表达 式 
就 称 为 规范 表达 式 (简称 范式 )。 例 如 ， 二 变量 函数 /=xy +xy 是 一 个 SOP 范式 。 两 个 乘积 项 中 
都 包含 变量 x 和 y 或 者 它们 的 反 相 形式 。 同 理 ， 二 变量 函数 /= (x +7) (x*+y) 是 一 个 POS 范式 。 
非 规范 表达 式 中 可 以 包含 一 个 或 者 多 个 不 包含 所 有 变量 的 逻辑 项 。 例 如 ， 三 变量 SOP 表达 式 

g =XY + Xz + XYZ 

就 不 是 一 个 范式 ， 因 为 逻辑 x7 项 少 了 z 和 z， 逻 辑 项 x*z 少 了 和 7。 一 个 给 定 的 非 规范 SOP 
表达 式 或 者 非 规范 POS 表达 式 可 以 是 或 者 不 是 极 小 的 ; 然而 ， 它 可 以 先 转换 成 等 价 的 范式 ， 
然后 用 以 下 的 化 简 方 法 变 成 极 小 的 范式 。 


2.3.1 极 小 项 


乘积 项 的 对 应 输入 值 称 为 极 小 项 。 例 如 ， 考 虑 SOP 范式 f =xy +xy 有 两 个 乘积 项 xyY 和 
xy。f 的 两 个 乘积 项 对 应 的 输入 值 为 x =0 By =0, x 和 yy 连接 起 来 表示 即 (00) = 0 OR BA 
误 一 一 译 者 注 ), 或 者 当 x=1 且 y=1, 即 (11),=3， 则 0 和 3 称 为 1 的 极 小 项 ， 可 以 用 希腊 
符号 E (sigma) 表达 如 下 : 





Ixy) =Z (0,3) 
使 用 极 小 项 能 最 直接 地 表达 SOP 范式 的 输出 。 如 果 极 小 项 给 出 的 形式 是 十 进 制 数 ， 则 
需要 先 将 它们 转换 为 二 进 制 数 ， 然 后 得 出 二 进 制 数 对 应 的 乘积 项 ， 如 以 下 果 数 g: 
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ET =E(0,1 6,7) 
g(a 9,2) = 3 (000), (001), ,€110)5,¢111),) 
g =xyzZz + xyz + xyz + xyz 


对 于 一 个 输出 变量 来 说 ， 其 真 值 表 、 极 小 项 列表 和 SOP 范式 是 三 种 等 价 的 表达 方式 。 


2.3.2 RAM 


同 理 ， 和 项 的 对 应 输入 值 称 为 极 大 项 。 极 大 项 也 可 以 写 为 整数 形式 ， 用 希腊 符号 I (pi) 
进行 相 乘 得 出 POS 表达 式 。 每 一 个 极 大 项 都 与 POS 范式 中 的 一 个 和 项 相对 应 。 例 如 ， 表 
达 式 

f(x,y) = 11(0,1) 
描述 了 7 的 极 大 项 ， 当 j 的 两 个 输入 x 和 ?为 (00) = 0 或 者 (01D) = 1 时, f 为 0。 

函数 /的 极 大 项 就 是 其 互补 函数 干 的 极 小 项 ， 反 之 亦 然 。 对 于 任意 函数 h， 以 下 
1) ~ 3) 步 说 明了 如 何 从 其 极 大 项 列表 获得 其 POS 范式。 步骤 i) Mii) 作为 补充 ， 用 于 说 
明 如 何 从 4h 的 极 小 项 列表 中 获得 其 SOP 表达 式 。 | 

1) key ss) = 10 (0,1 ,6,7) 
h(x,y,z) = TE (000,001 ,110,111) 
2) h(x,y,z) = 有 的 SOP 表 达 式 
3) h(x,y,z) = (m72) (% yz) (ay 2) (xyz) 
hts POS#KX (x,y,z) =(x ty tz) (x+y tz) (ety tz) (% +7 +2) 
i) h( x,y,z) =3 (0,1,6,7) 
h(x,y,z) = X (000,001 ,110,111) 
ii) h(x,y,z) =XYZ + Xyz + xyz + KYZ 

步骤 2) 和 3) tH AT LA FAR BIDA M) 代替 ， 如 下 所 示 : 

将 对 偶 原理 应 用 到 /的 SOP 表达 式 中 ， 可 得 到 其 对 偶 表 达 式 (xX + 了 +2)(X+yY+2)(x+y+ 
z)(x+y+z); 然后 将 表达 式 中 每 一 个 变量 取 反 ， 则 可 得 到 h 的 POS 表达 式 。 

再 次 强调 ,对 于 一 个 输出 变量 ， 其 真 值 表 、 极 大 项 列表 和 POS 范式 是 三 种 等 价 的 
表达 。 


2.4 逻辑 化 简 


在 第 1 章 中 已 经 讨论 过 ， 以 最 少 的 逻辑 门 以 及 每 个 逻辑 门 以 最 少 的 输入 来 生成 输出 信和 号 
是 非常 重要 的 。 最 小 的 SOP 或 者 POS 表达 式 包 含 了 最 少数 目的 逻辑 项 ， 每 一 项 都 是 由 最 少 
数目 的 变量 组 成 。 图 2-12 展示 了 逻辑 化 简 的 优点 。 在 这 两 个 例子 中 ， 规 范 表达 式 的 电路 实 
现 需 要 更 多 的 逻辑 门 ， 即 需要 更 多 的 晶体 管 和 电线 来 实现 。 

在 图 2-12 F, SOP 规范 表达 式 的 电路 需要 4 个 三 输入 的 与 门 、3 个 非 门 和 1 个 四 答 
和 人 的 或 门 或 者 总 共 需 要 8 个 与 非 门 实现 ， 包 括 非 门 在 内 ， 每 一 个 逻辑 门 至 多 有 4 个 输入 。 
AAW, 与 其 等 价 的 最 小 SOP 表达 式 只 需要 2 个 二 输入 的 与 门 、1 个 非 门 和 1 个 二 输 
入 的 或 门 ， 或 者 一 共 需 要 5 个 与 非 门 ， 每 一 个 逻辑 门 的 输入 都 减少 了 。 类 伏地 ，j 丰 的 规范 
POS 表达 式 需 要 一 共 8 个 或 非 门 ， 而 其 最 小 表达 式 只 需要 5 个 或 非 门 ， 每 一 个 逻辑 门 的 输 
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入 减少 了 


用 与 非 门 实现 
规范 SOP 表 达 式 : 了 =Xyz +xyz +xyz +xyz 


最 小 SOP 表 达 式 : f =z +xy Sah KEKE | 


用 或 非 门 实现 A 
规范 POS 表 达 式 : f =(x +y +z) (x +y +z) (X +y +z) (X +y +2) a ] 
最 小 POS 表 达 式 : f =(x +z) (x +y) 


站 
t t ' t4 H 
' i n t 
foe pat shh a ojoo x | 
ie eS ee EE | 





图 2-12 SOP 和 POS 最 小 表达 式 与 规范 表达 式 


正如 之 前 讨论 的 ， 规 范 SOP 表达 式 或 者 规范 POS 表达 式 分 别 可 以 很 容易 地 从 最 小 项 或 
者 最 大 项 推导 而 来 。 最 小 / 最 大 项 可 以 直接 从 真 值 表 得 来 。 我 们 也 可 以 根据 给 定 的 规范 SOP 
表达 式 或 者 规范 POS 表达 式 写 出 其 对 应 的 真 值 表 。 然 而 ， 不 推荐 也 不 必 这 样 做 。 
确定 给 定 非 规范 表达 式 的 最 小 项 或 最 大 项 不 是 一 个 简单 的 过 程 。 不 推荐 通过 判定 每 一 个 
输入 信号 条 件 来 确定 其 最 小 项 或 最 大 项 。 例 如 ， 确 定 表 达 式 f=y(x +xz) 的 真 值 表 ， 需 要 在 
所 有 3 位 输入 x、y 和 z 的 各 种 取 值 组 合 下 计算 该 表达 式 的 值 。 例 如 ,由 x=0、y=1 和 z= 
0 可 得 f=1, 由 x=1、y=1 和 z= 0 可 得 f= 0， 等 等 ,， 这样 可 以 确定 整个 真 值 表 。 然 后 可 
以 从 f 的 真 值 表 得 到 其 最 小 项 和 最 大 项 。 
还 有 一 种 选择 是 运用 布尔 代数 把 一 个 不 规范 的 表达 式 转 换 成 规范 表达 式 。 奉 表达 式 是 一 
个 SOP 表达 式 ， 则 直接 将 规范 表达 式 转换 成 其 最 小 项 ; 若 表达 式 是 一 个 POS RAK, WHA 
接 将 规范 表达 式 转 换 成 其 最 大 项 。 这 个 过 程 与 逻辑 化 简 步 又 相 反 ， 如 下 所 示 : 
f=y(% +a) 不 规范 的 表达 式 
f=xy + xyz 分 配 y 
f=xy(z+z) +xyz 将 缺少 的 z 和 z 插 入 到 第 一 项 中 
f=xyz +x yz + xyz 规范 的 SOP 表达 式 
使 用 以 下 步骤 将 一 个 函数 了 的 非 规 范 POS 表达 式 转换 成 与 其 对 应 的 规范 表达 式 : 
1) 使 用 等 式 “f 的 SOP 表达 式 = 了 的 POS 表达 式 ” 将 f 的 非 规 范 POS 表达 式 转 换 成 f 
的 非 规 范 SOP 表达 式 。 
2) 通过 f 的 非 规 范 SOP 表达 式 求 得 其 规范 SOP 表达 式 。 
3) 使 用 等 式 “f 的 POS 表达 式 = f 的 SOP 表达 式 ” ae SOP 表达 式 转换 成 f 的 
规范 POS 表达 式 。 


2.4.1 卡 诺 图 


卡 诺 图 CK 图 ) 是 一 种 识别 和 消除 规范 表达 式 中 宛 余 项 及 获得 一 个 或 多 个 等 价 最 小 表达 
式 的 图 形 技术 。 两 个 用 二 进 制 表示 仅 有 一 位 不 相同 的 最 小 项 或 者 最 大 项 可 以 简化 一 个 变量 。 
例如 ， 三 个 变量 x、y、z， 两 个 最 小 项 2 = (010) 和 3 = (011) 中 z 的 变量 取 值 是 不 一 样 的 。 
此 项 简化 成 xy 的 过 程 如 下 所 示 : 

xyz + xyz =xy(z +2) =xy 
因 为 z+z=1 和 条"1 = xy 

ZEA He, PAS A tt hl Ze as DA — MAARAMA A 4 NG i, > — 4S 0 a a a 

项 。 考 虑 以 下 由 最 大 项 2= (010). Al 3 = (011) 组 成 的 规范 POS RAR: 


地 


32 He 2 


(x+y +z)(x+y¥+4+2z) 


=A (x+y) +z) +y) +2) HERNE HRHD E 
=(x+y)(x+y)+(x+y)z+z(x+y)+zz 化 简 并 提取 公 因 子 
=(x+y)+(x+y)(z+z) +0 化 简 

=(x +y) +(x+y) 化 简 

=(x +y) 


在 K BI, FARATA at il Feo A A I) EE, Be) / 最 大 项 以 
这 种 方式 来 组 织 ， 使 得 定义 这 些 逻 辑 项 更 容易 。 例 如 ， 三 个 变量 x、y、z 有 8 种 可 能 的 最 小 / 
最 大 项 组 织 成 2x4 或 者 4x2 的 K 图 ,分别 如 图 
2-13a 和 图 2-13b 所 示 。K 图 中 的 每 一 个 方 格 表示 一 A NE a 
个 最 小 /最 大 项 ， 并 且 定 义 为 以 二 进 制 表示 的 行 标 si ep 
和 列 标的 组 合 。 例 如 ，0 行 00 列 的 方 格 定义 了 值 为 homer 
0 的 最 小 /最 大 项 ; 0 FF 01 列 的 方 格 定义 了 值 为 1 | i 
的 最 小 /最 大 项 ; 等 等 。 

在 图 中 ， 用 二 进 制 表示 的 相 邻 行 标 和 列 标 只 有 
一 位 不 同 。 图 2-13a 中 标记 为 00 和 10 的 两 列 也 被 
认为 是 相 邻 的 ; 所 以 图 2-13b 中 标记 为 00 和 10 的 
两 行 也 是 相 邻 的 。 这 样 的 定义 有 助 于 直观 地 看 出 只 
有 一 位 不 相同 的 最 小 /最 大 项 。 每 一 个 逻辑 项 都 与 
其 上 下 左右 四 个 方向 的 逻辑 项 相 邻 。 例 如 ， 在 图 
2-13a F, Æ 0 = (000), 与 其 左 方 的 逻辑 项 2 = 
(010), 和 其 右 方 的 逻辑 项 1= (001) 是 相 邻 的 ， 与 其 





b ) 4X2 结构 
2-13 ”一 个 三 变量 的 K 图 结构 ， 每 一 个 
方 格 代表 一 个 最 小 /最 大 项 


yz 00 01 11 





下 方 的 逻辑 项 4 = (100). 也 是 相 邻 的 。 逻 辑 项 (000), as ia Pikes 
Ej (001)2. (010). 和 (100) 有 一 位 不 相同 。 图 2-14 lalslrlys) 
展示 了 一 个 四 输入 的 K 图 。 例 如 逻辑 项 0， 分 别 与 11| 12 | 13 | 15 | 14 
逻辑 项 1 (ATT), 2 ( 左 方 )、4 (下 方 ) 和 8 (上 方 ) we |s |1| 
相 邻 。 图 2-14 一 个 四 变量 的 K 图 ， 方 格 中 的 数 
PRIX g (x, y, z) = È (2, 6, 7) 的 K 图 如 下 所 示 ， 为 与 其 对 应 的 最 小 /最 大 项 的 值 
其 中 用 1 表示 其 每 一 个 最 小 项 。 其 余 的 方 格 对 应 = 
其 最 大 项 和 留 空 项 。 
z|o [ol | 11 | 10 | 
x: 0 | pe 
Ba Ey 


在 K 图 中 ， 最 小 项 2 = (010). 与 另 一 个 最 小 项 6 = (110). 相 邻 ， 而 最 小 项 6 与 最 小 项 
7 = (111) 相 邻 。 然 而 最 小 项 2 与 最 小 项 7 并 不 相 邻 ， 二 进 制 表示 (010). 与 (111) 有 两 位 不 
lA], AŽ g (x, y, z) = I (0, 1, 3, 4, 5) 的 POS 表达 式 的 K 图 如 下 所 示 : 
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K 图 可 以 产生 化 简 后 的 表达 式 。 一 个 函数 可 以 有 多 个 化 简 后 的 表达 式 ， 它 们 之 间 是 等 价 
的 。 一 对 相 邻 的 逻辑 项 可 以 化 简 成 减少 一 个 变量 的 逻辑 项 ， 多 个 相 邻 的 逻辑 项 可 以 化 简 成 减 
少 更 多 变量 的 逻辑 项 。 如 图 2-15 所 示 ，K 图 中 有 4 个 最 ee 
x 0 


00 
小 项 ， 分 别 为 2、3、6 和 7。 ae Jaia, 
最 小 项 (010). 与 最 小 项 (011)2 Fl (110). 相 邻 ， 最 小 lb dria) 


项 (011). 与 最 小 项 (010) 和 (111)2 相 邻 ， 最 小 项 (110): 与 ”图 2-15 K 图 中 有 4 个 最 小 项 ， 分 
(010) 和 (111 相 邻 。 运 用 布尔 代数 ， 这 些 最 小 项 可 以 化 别 为 2、3、6、7 
简 为 ?>， 如 下 所 示 : 
> (2,3,6,7) =xyz + xyz + xyz + xyz 
=xy(z +2) +xy(z +z) 提取 较 小 逻辑 项 并 化 简 


=xy + xy 提取 y 并 化 简 (2-6) 
=y(x+x) 化 简 
=y 


例如 公式 (2-6) 和 图 2-15 的 化 简 ， 运 用 开 图 化 简 步 又 如 下 : 

1) 比较 两 个 列 标 11 和 10， 其 中 与 其 有 联系 的 是 最 小 项 组 (010),、(011),。、(110); 和 
(Illo RERE z 的 位 标记 改变 了 ， 而 代表 变量 y 的 位 标记 没有 变化 ; 这 样 变 量 z 可 以 消 
掉 。( 在 代数 运算 中 ， 较 小 项 zy Al xy 被 提出 来 ， 从 而 消 掉 zo) 

2) 比较 两 个 行 标 ， 信 号 x 变化 了 ， 而 与 其 有 位 联系 的 >( 剩 下 的 变量 ) 没有 变化 ; 这 样 ， 
x 可 以 被 消 掉 。( 在 代数 运算 中 , 可 以 被 提取 出 来 从 而 消 掉 x。) 

3) 写 下 没有 被 消 掉 的 变量 (在 这 个 例子 中 只 有 y) 作为 前 面 第 1 ) 和 第 2 ) 步 的 化 简 结 
果 ， 当 位 标记 为 0 时 信号 为 Y， 当 位 标记 为 1 时 信号 为 y。 这 个 例子 中 yy 为 最 小 项 组 的 最 终 
化 简 结果 ， 在 公式 (2-6) 中 也 有 相应 的 代数 运算 。 

运用 KK 图， 无 需 进 行 布尔 运算 就 可 以 求 出 与 规范 表达 式 等 价 的 最 小 化 简 的 表达 式 。 考 
虑 下 列 有 最 小 项 1、2、3、6 和 7 的 KK 图 : 


| yz} 00 | 01 | 11 | 10 | 
so CIO N 
at ld 
相 邻 的 最 小 项 组 2、3、6 和 7 可 以 被 化 简 为 y。 对 于 最 小 项 1 = (001): 来 说 ， 唯 一 与 其 相 邻 
的 最 小 项 是 3 = (011),。 比 较 两 个 列 标 01 和 11， 变 量 有 改变 ， 所 以 可 以 被 消 掉 ， 得 到 结果 
逻辑 项 为 x*z， 对 应 为 x = 0 和 z= 1。 这 样 ， 最 小 项 1、2、3、6 和 7 最 终 的 最 小 项 化 简 表 达 
式 为 
y + xz (2.7 ) 
注意 到 最 小 项 3 运用 了 两 次 ， 一 次 是 在 最 小 项 组 2、3、6 和 7 中 ， 一 次 在 最 小 项 组 1 和 
3 中 。 这 个 重复 运用 的 依据 是 布尔 代数 中 的 规则 x = x + x (或 者 对 于 最 大 项 ，x :x = x)。 在 
逻辑 表达 式 中 重复 使 用 逻辑 项 并 不 会 改变 其 真 值 表 , 但 是 却 可 以 帮助 相 邻 逻辑 项 组 成 更 大 的 
逻辑 项 组 ， 从 而 在 最 终 的 化 简 表 达 式 中 消 掉 更 多 的 变量 。 下 列 布尔 运算 展示 了 这 一 点 : 
给 定 一 个 规范 的 SOP 表达 式 x yz + xyz +%yz + xyz +xyz， 重 复 使 用 对 应 于 最 小 项 3 的 逻 
辑 项 x yz: 


| 46 | 
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(x yz + xyz + xyz + xyz + xyz) + xyz 
使 用 相 邻 的 原则 重组 逻辑 项 : 

(xyz + xyz + xyz 十 YYZ) +(x yz 十 %YZ ) 
化 简 每 一 组 逻辑 项 ， 最 终 得 到 化 简 的 最 小 SOP RENY +xz。 

如 果 没 有 图， 决定 一 个 逻辑 项 需要 重复 几 次 是 非常 困难 的 。 最 小 表达 式 是 通过 KK 图 
中 每 一 组 相 邻 的 逻辑 项 的 最 大 数目 得 来 的 。K 图 的 化 简 规则 总 结 如 下 。 

1.K 图 化 简 规 则 

1) 我 们 把 只 有 一 位 不 同 的 最 小 / 最 大 项 称 为 是 相 邻 的 ， 并 且 它 们 被 认为 形成 一 个 蕴含 。 
我 们 假定 K 图 是 两 侧 都 可 以 环绕 的 ， 即 OO 列 和 10 列 也 相 邻 。 

2 ) 一 组 列 含 可 以 组 合 起 来 形成 一 个 称 为 素 蕴 含 的 大 组 。 每 一 个 组 包含 的 逻辑 项 数目 都 
是 2 的 蜂 ， 即 一 个 组 可 能 含有 一 个 逻辑 项 、 两 个 逻辑 项 、4 个 逻辑 项 或 者 8 个 逻辑 项 。 

3 ) 每 一 个 素 蕴含 必须 至 少 包含 一 个 不 属于 其 他 任何 素 列 含 的 单独 的 逻辑 项 〈 例 如 无 元 
余 组 )。 符 合 这 个 规则 的 素 蕴 含 被 称 为 基本 素 蕴 含 (EPI)。 最 终 的 最 小 表达 式 必须 包含 所 有 
基本 素 列 含 的 逻辑 项 。 

4 ) 所 有 逻辑 项 都 必须 分 组 。 
化 简 表达 式 扩 zsy;z) = X (1,3,6,7). 


fe: SAY K 图 如 下 : 
oo | 01 | 11 | 10 | 
so CHY 
| | ID 


最 小 项 1、3、6 和 7 组 成 了 三 个 而 不 止 一 个 素 蕴 含 ， 如 K 图 所 示 。 这 是 因为 最 小 项 1 = (001) 
和 6 = (110) 都 只 与 其 他 一 个 逻辑 项 相 邻 。 由 最 小 项 3 = (011) 和 7 = (111); 组 成 的 素 蕴 含 不 
是 一 个 EPI。 因 为 有 一 个 素 蕴含 包含 了 最 小 项 1 和 3 = (011), ZE ”的 列 标 改 变 了 ， 得 到 逻 
辑 项 xz。 由 最 小 项 6 和 7 组 成 的 素 列 含 ， 变 量 z 的 列 标 改 变 了 ， 得 到 逻辑 项 xy。 即 最 终 的 
最 小 SOP 表达 式 为 : 





f=xz + xy Py 
化 简 表 达 式 f(x,y,z) = %(0,1,2,3,4,6), 
解 : | 





4 个 角 的 最 小 项 0、2、4 和 56 与 第 一 行 的 最 小 项 0、1、2 和 3 组 成 了 两 个 EPI。 由 于 由 最 小 项 0、 
1、2 和 3 组 成 的 素 蕴 含 中 变量 y 和 z 改变 了 ， 所 以 消 掉 这 两 个 变量 得 到 逻辑 项 x。 类 似 地 ， 
由 于 由 最 小 项 0、2、4 和 6 组 成 的 素 蕴 含 中 变量 x 和 yy 改变 了 ， 所 以 得 到 逻辑 项 zf。 最 终 的 
最 小 SOP KARY: 
f(x,y,z) =x +z ite 
Ab fej IA f(w x,y,z) = 3 (0,2,3,4,5,6,7,8,10,12,13), 
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解 : 





图 中 有 5 个 素 殖 含 和 它们 对 应 的 最 小 项 列表 。 只 有 标记 为 a、d 和 ee 的 系 玖 含 为 EPI。 因 为 
素 蕴 含 a、d 和 e 都 只 包含 了 素 蕴 含 b、c 和 f 中 的 部 分 最 小 项 。 

ae 2 OT) 

b: (04,812) TOR 

e+ 3.(4.,5,,6,7) TR 

de® (4:5 32.19) 

e: > (0,2,8,10) 

f: %(0,2,4,6) LR 

FRAR a, ZE x 和 z 的 标记 是 有 变化 的 ， 所 以 得 到 最 小 项 wy ; WRAA d, % 

量 w 和 z 的 标记 是 有 变化 的 ， 所 以 得 到 xy; 对 于 蕴含 e， 变 量 w 和 yy 的 标记 有 变化 ， 所 以 
得 到 xz。 最 后 得 到 的 最 小 SOP 表达 式 为 : 





f(w,%,y,2) =wy +xy + XZ og 
化 简 表 达 式 f(w,x,y,z) = ¥(1,9,11,14,15), 
解 : 
RARA: 
ae > (19) 
b: 5} (14,15) 
ce: 5 (9,11) 
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素 蕴 含 a、b 以 及 c 或 d 中 的 一 个 为 EPI。EPI a, b Alc thf na Tah SOP 表 
AA: 
f(w,x,y,z) =xyz + wxy + wxz 
类 似 地 ,用 EPIa、b 和 d 可 以 得 到 等 价 的 最 小 SOP RER: 
f(w,%,y,2) =xyz + wxy + wyz 
两 个 最 小 表达 式 是 等 价 的 ， 因 为 它们 的 真 值 表 是 一 样 的 ， 拥 有 相同 的 最 小 /最 大 项 。 m 
化 简 表 达 式 g(w,x,y,z) =I(1,9,11,14,15) 
解 : 





POS 表达 式 的 素 蕴 含 和 SOP 表达 式 的 素 蕴 含 作用 是 一 样 的 ， 然 而 在 这 个 例子 中 ， 表 
达 式 g 的 KK 图 中 的 0， 等 价 于 表达 式 8 的 K 图 中 的 1， 这 些 0 可 以 组 成 逻辑 项 组 ， 使 用 之 
前 讨论 的 方法 (f 的 POS 表达 式 = f 的 SOP RAR) 决定 g 的 POS 表达 式 。 在 此 例 中 ,与 
例 2-6 相似 ， 表 达 式 g 的 SOP 素 蕴 含有 (1,9) =x yz, (14,15) =wxy, 2 (9,11) =w xz 和 
Z (11,15) =xyz。 这 样 ， 可 以 得 到 表达 式 g 的 POS RARAN: 
a:II(1,9) =x yz=(x+y +2) 
b:11(14,15) =wxy =(w+x+y) 
e:11(9,11) =wxz=(w+x +z) 
d:11(11,15) =wyz=(w+y +z) 
类 似 地 ， 表 达 式 g 有 两 个 最 小 POS 表达 式 : 1) 使 用 EPIa、b 和 ec; 2) 使 用 EPIa、b Ald. 
使 用 2 ) 可 得 到 下 列 POS 表达 式 : 
g=(x+y+z)(w+x+y)(w+y+z) ; ee 
化 简 表 达 式 f= (w,x,y,z) = 11(0,1,2,5,8,9,14), 
解 : 





RARA: 
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a: 11(0,1,8,9) 
b: I1(0,2) 

c: II (1,5) 

d: 11(14) 

这 些 素 蕴 含 都 是 基本 素 蕴 含 ， 且 它们 对 应 的 最 小 POS 表达 式 如 下 : 

a: 变量 w 和 z 的 标记 有 改变 ， 得 到 (x + y)。 | 

b: 变量 y 的 标记 有 改变 ， 得 到 (w +x+z)。 

c: 变量 x 的 标记 有 改变 ， 得 到 (wt+yt+z)o 

d: Hae RAST, HE) (w+x+y+z)o 

所 以 最 终 的 最 小 表达 式 为 : 

f(w,x,y,z) =(x+y)(w+x+z)(w+y+z)(w+x+y +z) a 

2. 无 关 项 

在 极 少 一 些 情况 下 ， 输 出 可 能 只 由 当前 输入 条 件 的 一 个 子 集 决定 ， 而 其 他 的 输入 条 件 是 
不 确定 的 。 例 如 ， 考 虑 图 2-16 中 的 7 段 显 示 单 元 
(7SDU) 及 其 转换 模块 。 假 设 转换 器 用 于 显示 0 ~ 9 
的 二 -十 进 制 编码 数字 (BCD)。 给 定 4 位 输入 ， 
范围 为 0 = (0000), 到 9 = (1001),， 转 换 器 生成 了 7 
个 信号 ， 从 fa 到 fg : 一 个 信号 可 以 使 得 a 到 g 的 7 
段 中 的 一 段 显 示 管 开启 ， 使 其 对 应 0 ~ 9 的 数字 。 

例如 ， 要 显示 数字 0， 除 了 g 段 所 有 的 显示 管 
都 必须 开局 ; 这 样 ， 除 了 信号 fg， 所 有 的 信号 值 都 图 2-16 7 段 显示 器 及 其 转换 器 
必须 为 1 (假设 使 用 高 电 平 输出 )。 如 果 要 显示 数字 
9, RTRS 任 ， 所 有 的 信号 必须 开启， 除了 任 ， 所 有 信号 值 必须 为 1。 当 输入 信和 号 为 4 位 
0 ~ 9 的 数字 时 ，BCD 到 7SDU 转换 器 用 于 正确 输出 fa 到 fg 信号。 当 输 入 信号 为 10 ~ 15 
时 ,输出 是 没有 定义 的 ， 可 以 被 认为 是 无 关 的 ， 在 真 值 表 中 以 d 表示 。 

一 个 无 关 的 最 小 /最 大 项 可 以 用 “通配符 ”表示 ， 根 据 K 图 的 需要 可 以 表示 为 0 或 者 1。 
这 样 ， 无 关 项 就 可 以 用 于 帮助 消 掉 变量 和 化 简 最 终 的 表达 式 。 考 虑 表达 式 f(w,x,y,z) = 
5(1,9,14) + 35s(3,7,11)， 其 中 ，3s 用 于 表示 表达 式 f 的 最 小 项 中 的 无 关 项 。 类 似 地 ， 符 
号 I 工 ,用 于 表示 图 数 中 最 大 项 中 的 无 关 项 。 如 下 所 示 ， 其 中 一 个 基本 蕴含 包含 了 两 个 无 关 项 ， 
只 有 无 关 项 被 用 到 来 化 简 表 达 式 。 无 关 项 变 成 的 最 小 项 3 和 11 和 最 小 项 1 和 9 一 起 生成 了 
基本 蕴含 Xz。 最 小 项 7， 不 是 一 个 无 关 项 ， 不 需要 用 到 。 所 以 最 后 最 小 化 简 的 SOP 表达 式 为 


f(w,%,y,z) =xz + wxyz, 


7SDU 


N< xZ 





2.5 ”逻辑 化 简 算法 
K 图 化 简 是 一 种 图 形 的 方式 ， 只 能 适用 于 很 小 数目 的 变量 ,例如 4 个 变量 的 表达 式 中 。 当 
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变量 数 大 于 4 时 , 在 20 世纪 50 年 代 中 期 发 明 的 叫 作 奎 因 - 麦克 拉 斯 基 算 法 的 数学 方式 更 合适 
于 表达 式 化 简 。 这 个 算法 使 用 比 K 图 更 少 的 步骤 来 寻找 最 小 逻辑 表达 式 。 最 小 项 被 划分 成 不 
同 的 集合 ， 每 一 个 集合 都 只 包含 一 个 在 二 进 制 表达 中 有 特殊 个 1 的 个 数 的 最 小 项 。 考 虑 例 2-5 
中 的 表达 式 f(w, x, y, Z) = (0, 2, 3, 4, 5, 6, 7, 8, 10, 12, 13)。 在 二 进 制 中 ， 最 小 项 为 0000, 0010, 
0011, 0100, 0101, 0110, 0111, 1000, 1010, 1100 和 1101。 这 些 最 小 项 可 以 分 组 成 下 列 4 个 集合 : 


EAT: KEA 1 BAT 
0010 
集合 2: 0100 包含 一 个 1 的 最 小 项 


1000 


包含 两 个 1 的 最 小 项 


0111 


每 一 次 比较 一 对 最 小 项 ， 集 合 1 中 的 一 个 最 小 项 与 集合 2 中 的 一 个 最 小 项 比较 。 在 每 一 
对 最 小 项 比较 中 ， 一 位 数字 的 改变 意味 着 一 个 蕴含 。 改 变 位 可 以 用 一 条 横 枉 〈-) 表示 ， 从 
而 省 略 对 应 的 变量 。 

例如 ， 集 合 1 中 的 最 小 项 0000 与 集合 2 中 的 0010 比较 ,可 以 生成 蕴含 00-0, E y 
省 略 。 最 小 项 0000 可 以 再 与 最 小 项 0100 比较 ， 生 成 蕴含 0 - 00, Bex 被 省 略 ， 等 等 。 这 个 
过 程 (每 一 次 比较 一 对 最 小 项 ) 可 以 用 于 所 有 最 小 项 。 集 合 2 和 集合 3， 集 合 3 和 集合 4 可 以 
生成 用 于 结果 的 一 个 蕴含 的 集合 。 初 始 集 合 1 到 集合 4 标记 为 表 2-4 列 I 中 的 1.1 1.4. 

使 用 集合 I.1 到 I.4 生成 的 蕴含 列表 标记 为 集合 了 .1 到 了 .3， 写 在 表 2-4 的 列 开 中 。 接 
下 来 ， 对 于 集合 1.1 到 I.4 中 的 最 小 项 ， 如 果 在 列 开 的 最 小 项 可 以 生成 一 个 蕴含 ， 就 用 一 
“x” brid; BR, BABS (*) 标记 ， 识 别 出 一 个 素 蕴含 (在 这 个 例子 中 没有 )。 当 列 荆 中 
的 蕴含 生成 之 后 ， 重 复 之 前 的 步骤 ; 每 一 次 比较 一 对 集合 .1 和 集合 了 .2 中 的 一 对 蕴含 。 在 
这 个 例子 中 ,在 每 一 对 蕴含 之 间 的 横 杠 必须 排列 起 来 。 

例如 ， REI 中 的 蕴含 00 - 0 与 集合 卫 .2 HAF 10-0 比较 . 生成 的 蕴含 写 在 表 
中 的 列 亚 下 的 集合 亚 .1 和 焉 .2。 同 样 ， 如 果 列 开 中 的 蕴含 对 生成 的 不 是 素 列 含 ， 用 “xz” 标 
id; A, ABS (*) 标记 ， 在 这 个 例子 中 没有 素 蕴含 。 这 个 过 程 在 列 亚 中 重复 一 次 ， 但 
是 这 次 ， 没 有 更 多 的 步骤 可 以 走 了 ， 因 为 集合 焉 .1 和 集合 亚 .2 中 的 蕴含 一 一 比较 之 后 ， 不 能 
再 生成 新 的 蕴含 ; 这 样 ， 所 有 从 集合 下 .2 和 集合 亚 .3 中 产生 的 蕴含 都 标记 为 星 号 (*), 与 其 
对 应 的 逻辑 项 在 图 2-17 中 列 出 。 


表 2-4 最 小 项 0, 2, 3, 4, 5, 6, 7, 8, 10, 12 和 13 生成 的 素 蕴 含 (用 * 标记 ) 列表 
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( 续 ) 
RE a EE a 
集合 12 TT 
selar ft PE 二 a 
pifo}lolo|«| sama |o{o] i |—|« | sam | o|—| 1 一 |* 
EE 
sl = =lofijots| [—Jijol—l- 
ED ED te titel—je] | E NA 
Ota iota, mallee | 
pitotifote| j= [ifofols«| -二 二 
iilololxs| |1|0| 一 | 01x | tate 
I ae: eae a ae eS ee 
pe ie ae aa 
kerta |i | 1 | 而 | || 
Ree eee oe eee 
Wl a ee | 
a a eee (oe BO nF (A Oa 


程序 的 下 一 步 是 要 在 素 蕴含 列 表 a 到 上 用 一 个 最 小 集合 算法 来 选择 基本 蕴含 。 图 2-17 
是 素 蕴 含 和 它们 对 应 最 小 项 的 组 织 图 。 如 果 一 个 素 蕴 含 包含 一 个 最 小 项 ， 则 在 方 格 中 用 “x” 
标记 。 例 如 ， 有 两 个 横 杠 的 素 蕴 含 0 -- 0 包含 了 最 小 项 0 = (0000), 2 = (0010)2, 4 = (0100), 
和 6= (0110),， 这 些 最 小 项 方 格 中 在 行 1 中 标记 为 “x”， 如 表格 所 示 。 


. 0-1-: wy = X2, 3, 6, 7) 
. ——00:7z= Z(0, 4, 8, 12) 
01--: Wx = £4, 5, 6, 7) 
. -10-:xy = £(4, 5, 12, 13) 
. -0-0:xz= X(0, 2, 8, 10) 
0-0: WZ = X(0, 2, 4, 6) 


> @ a nn vg 





2-17 表 2-4 中 包含 的 素 蕴 含 列 表 


最 小 集合 算法 也 是 一 个 迭代 的 过 程 ， 最 开始 在 任意 列 中 选择 只 有 一 个 有 “x” 标 记 的 率 
蕴含 ， 这 样 可 以 生成 一 个 EPI。 在 这 个 例子 中 ， 最 小 项 3、10 和 13 相关 的 列 中 只 有 一 个 “x” 
标记 ; 这 些 类 似 的 例子 在 表格 中 用 粗 体 和 下 划 线 表示 出 来 。 

假设 在 表 2-5 中 从 左 往 右 处 理 最 小 项 。 在 迭代 1 中 ， 最 小 项 3 相关 的 列 只 包含 一 个 

x”， 这 样 对 应 的 素 蕴 含 0 -= 1 -= 可 以 作为 一 个 EPI， 因 为 其 只 包含 最 小 项 3。 它 也 可 以 包含 
最 小 项 2、3、6 和 7， 这 样 相 关 的 列 和 行 被 标记 为 删除 ( 忆 )， 如 表格 中 所 示 。 这 个 过 程 可 以 
有 效 地 消 掉 下 一 个 迭代 中 表格 的 规模 。 在 迭代 2 中 ， 素 蕴含 - 0 - 0 在 最 小 项 10 相关 的 列 中 
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只 有 一 个 “x” 标 记 ， 我 们 选择 其 为 下 一 个 EPI。 这 样 , 列 0.8 和 10, 行 2 标记 为 D。 最 后 ， 
在 迭代 3 中 ， 与 最 小 项 13 相关 的 素 蕴含 - 10 -， 被 选 作 为 下 一 个 EPI， 这 样 则 需要 删 掉 表 
中 所 有 的 剩余 列 ， 以 及 EPI = - 10 = 对 应 的 行 。 


表 2-5 HR 2-4 中 包含 的 素 蕴含 使 用 最 小 集合 算法 图 解 


RAS 最 小 项 
| 3: 
wl peste) ted STEEL 

a l-lel-lelefst 1 LT tie Lt 
ee se ee ee el I 
a ee ee e R EI Ee ee es a 

et | f= Leaf sellslsl ll zl 
mali les ele] ll tele | | 
ree] | | ee sl | 


ome) | | | je, tt et pee s a 
ens] | | | | ee | 


当 所 有 与 最 小 项 有 关 的 列 都 删除 之 后 ， 算 法 结束 。 在 这 个 例子 中 ， 经 过 三 轮 迭 代 后 算法 
结束 ， 并 产生 三 个 EPI, -0-0、0--1-- 和 一 10 一 ,“ 壕 代 ” 部 分 对 应 的 行 标记 为 D。EPI Æ 
成 了 最 小 SOP 表达 式 x*z +wy +y, EA 2-6 H, 我们 使 用 K 图 的 方法 也 得 到 了 这 个 表达 式 。 

如 果 在 最 小 集合 算法 过 程 中 ,没有 发 现 有 一 列 只 有 一 个 “x” 标 记 ， 以 下 的 规则 可 以 用 
来 选择 下 一 个 候选 的 素 蕴 含 : 

1 ) 找到 至 少 有 一 个 “x” 标 记 的 列 ， 然 后 选择 其 对 应 的 素 蕴含 作为 候选 项 。 

2) 在 第 1 ) 步 素 蕴含 列表 中 选择 那些 在 剩 下 的 最 多 最 小 项 的 素 蕴 含 (不 包括 有 DD 标记 
的 列 )。 

3) 如 果 在 第 2 ) 步 中 得 到 多 个 素 蕴 售 ， 选 择 那 个 包含 横 杠 最 多 的 素 蕴 含 ; 其 对 应 的 逻 
辑 项 应 该 包含 较 少 变量 。 

4) 如 果 在 第 3 ) 步 中 得 到 多 个 素 蕴 含 ， 则 可 得 到 两 个 或 以 上 的 等 价 最 小 表达 式 。 

除了 在 表 2-4 和 表 2-5 中 需要 用 最 大 项 来 替换 最 小 项 求 最 小 POS 表达 式 的 算法 过 程 也 
是 相似 的 。 

如 果 一 个 逻辑 电路 有 多 个 输出 ， 每 个 输出 的 最 小 表达 式 通常 不 会 独立 地 确定 。 相 反 ， 
此 时 化 人 简 的 目标 是 选择 在 不 同 表达 式 之 间 相 同 的 素 蕴 含 ， 从 而 可 以 减少 实现 多 个 表达 式 电 
路 中 所 需 的 逻辑 门 数 目 。 一 些 逻 辑 门 的 输出 信号 可 以 被 共享 和 连接 为 其 他 人 逻辑 门 的 输入 。 
Espresso 优化 软件 [1] 可 以 解决 需要 同时 化 简 多 个 逻辑 表达 式 的 情况 。 逻 辑 设计 的 CAD T 
具 通 常 包 含 这 个 软件 和 其 他 化 简 软 件 。 


化 简 软 件 


例 2-9 展示 了 用 函数 f(w, x, y, z) = 5 (0, 2, 3, 4, 5, 6, 7, 8, 10, 12, 13) 最 小 项 来 进行 
Espresso 操作 的 输入 和 输出 文件 。 第 一 列 中 的 点 (，) 代表 一 个 参数 。 例 如 ,“.i 4” 表 示 输 
入 的 个 数 ， 在 这 个 例子 中 为 4,“.o 1” 表 示 输 出 的 位 数 ， 这 个 例子 中 为 1。 标 记 “ .ilb wx 
y z” 列 出 输入 的 变量 ， 这 个 例子 中 为 4 个 变量 ;“ .ob f” 列 出 输出 变量 ， 在 这 个 例子 中 为 1 
个 变量 ;“.e” 表 示 输 入 文件 的 结尾 。 符 号 “# ”表示 一 行 注释 。 在 输出 文件 中 ,“.p” 表 示 
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EPI 的 数目 。 


P| 用 Espresso 1h fa) PAL f (w, x, y, z) = È (0, 2,3,4, 5, 6, 7, 8, 10, 12, 13). 


解 : 

a) 输入 文件 

#Inputs: 4, Outputs: 1 
sa. 4 

Oo 2 

#Input labels 


: 生 ]D w xyz 
#output bit label 
-Ob f 


#list of min-terms separated by space and a single output 
bit separated by a tab 


0000 1 
oie 1 
Sears 
0 l 00 4 
oDe O o E & 
Bids l 
oar å 
21000 ł 
O w G L 
利生 
Bae OD 4 


#end of list 


“© 


b) 输出 文件 : 所 有 注释 行 首 先 打印 


#Inputs: 4, Outputs: 1 

#Input signal labels 

#output bit label 

#list of min-terms and output 
#end of list 

a 4 

© L 


-二 LD WW x y z 


0-1 1 


e 


输出 文件 列 出 了 3 个 EPI: -10-、-0-0 和 0-1=-。 这 3 个 EPI 与 之 前 手工 步骤 求 出 的 相 


同 ， 在 表 2-4 和 表 2-5 中 列 出 。 


下 列 的 Espresso 输出 列 出 了 两 个 输出 信号 f 和 g 的 EPI。“11”"、“11” 和 “10” 打 印 在 
EPI 之 后 ， 这 三 个 EPI 都 是 属于 输出 信号 f 的 ， 而 前 两 个 (- 10 = 和 -0 -0) 是 共享 的 并 属 


于 输出 变量 g。 
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© 2 
‘ob = g 
me 2 
-10- 11 
-0-0 11 
0-1- 10 
K 2-6 展示 了 表达 式 f(w, x, y, z) = = (1, 9, 14) + (3,7, 11)， 运 用 化 简 算法 后 的 结果 ， 
这 个 表达 式 也 在 2.4.2 小 节 中 化 简 过 。 在 列 I 中， 每 一 个 无 关 项 都 标记 为 “4”。 之 前 讨论 过 
的 化 简 算 法 也 是 一 样 的 ， 只 是 在 一 对 最 小 项 中 只 能 有 一 个 无 关 项 ; 两 个 无 关 项 不 能 进行 比 
较 。 例 如 ， 人 集合 1.2 中 最 小 项 (0011); 和 集合 1.3 中 的 最 小 项 (0111):， 两 个 都 为 无 关 项 ， 不 
能 进行 比较 来 产生 素 芍 含 0 - 11。 

算法 产生 三 个 素 蕴 含 (以 星 号 为 标记 )， 每 一 个 在 一 行 中 。 表 2-7 ER 2-6 运用 最 小 集合 
算法 之 后 的 素 蕴含 组 织 表 。 集 合 1 .3 RAF (1110) 是 一 个 EPI。 在 剩 下 的 两 个 素 蕴含 -0 1 
和 一 001 中 都 包含 最 小 项 1 AO, 由 于 -0-1 有 比 -001 更 多 的 横 枉 ， 所 以 选择 - 0- 1。 这 
#6 EPI 也 可 以 在 例 2-10 中 用 Espresso 算法 实现 ， 输 入 文件 中 的 横 杠 〈-) 代表 无 天 的 候选 项 。 


表 2-6 f(w,x, y,z)= = (1,9, 14) + 24(3, 7, 11) HRS 


* 


BSERREECD 
PT TT yy ie 
BRRSERRRS 


N 


dS 


FA Espresso 算法 化 简 f(w, x, y,z) = È (1, 9, 14) + 223, 7, 11). 
(a) 输入 文件 

sO L 

22D Wz yz 

.ob £ 
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000 2 A 

co LiL = 

G9iLiLii = 

2090 O02 2 

LOTI ~= 

a 2 OE 3 

. e 

(b) 输出 文件 

.i 4 

“© I 

ilbwxy z 

OD: T 

6 2 

1110 vi 

-0-1 $ 

e 7L 
2.6 电路 时 序 图 


在 讨论 电路 时 序 图 之 前 ,我 们 首先 从 非 门 电路 时 序 图 开始 。 每 一 个 逻辑 门 都 有 一 定 的 
延 时 。 这 个 延 时 是 由 于 逻辑 门 输出 从 0 到 1 或 者 反 过 来 一 个 或 多 个 输入 变化 需要 时 间 。 图 
2-18 展示 了 非 门 0.1ns 延迟 的 时 序 。 如 图 2-18a 所 示 ， 当 输入 x 从 0 变 为 1 时 ， 输 出 z 在 
0.lns 中 从 1 变 为 0。 类 似 地 ， 当 x 从 1 变 为 0 时 , 在 0.1ns 中 从 0 变 为 1。 在 图 2-18a 中 ， 
信和 号 的 转换 显示 成 立即 发 生 。 然 而 ， 在 实际 中 ， 信 和 号 转换 并 非 立 即 发 生 。 


:一 | OO Z E: : 
0.1ns —> 一 0.1 ns 


0.1 ns EF EE 4 = 
aes a) 立即 信号 转换 | 









b ) 更 符合 实际 的 信号 转换 
图 2-18 有 0.1ns 延 时 的 非 门 时 序 图 : a) 一 个 简单 的 时 序 图 ; b) 一 个 更 符合 实际 的 时 序 图 


信号 上 升 时 间 是 输出 电压 从 逻辑 0 的 对 应 值 上 升 到 逻辑 1 的 对 应 值 所 需 的 时 间 。 类 似 
的 ， 信 号 下 降 时 间 是 输出 电压 从 逻辑 1 的 对 应 值 下 降 到 逻辑 0 的 对 应 值 所 需 的 时 间 。 逻 辑 门 
的 上 升 时 间 和 下 降 时 间 可 能 不 一 样 。 图 2-18b 展示 了 更 实际 的 非 门 时 序 电 路 图 ， 包 括 其 上 升 
时 间 和 下 降 时 间 。 如 图 所 示 ， 上 升 和 下 降 的 中 点 通常 用 于 现实 信号 的 立即 转换 。 

对 于 + 5.0 伏特 电压 的 电源 ， 所 有 在 0 ~ 0.8V 之 间 的 输入 值 都 被 视 为 逻辑 0， 所 有 在 
2.0 ~ 5.0V 之 间 的 输入 值 都 被 视 为 逻辑 1。 一 个 输入 电压 大 于 0.8V 且 小 于 2.0V 之 间 的 值 都 
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被 视 为 未 定义 的 。 对 于 逻辑 1 输出 ， 电 压 范 围 是 2.4 ~ 5.0V 之 间 ， 对 于 逻辑 0， 对 应 输出 电 
压 范围 是 0 ~ 0.4V 之 间 。 更 低 的 电压 源 (例如 ,1.8V 或 者 1.2V) 通常 用 于 电池 供电 的 系统 中 。 
最 小 布尔 表达 式 定 义 了 不 需要 考虑 逻辑 门 和 线路 延迟 的 电路 输入 和 输出 之 间 的 逻辑 关 
系 。 一 个 电路 时 序 图 是 每 个 逻辑 门 的 输出 在 电路 中 由 于 逻辑 门 和 电路 延迟 而 发 生 实际 变化 的 
说 明 图 。 当 电路 输入 发 生变 化 时 ， 时 序 图 提供 了 电路 行为 的 一 个 更 实际 的 视图 。 例 如 ， 考 虑 
表达 式 f (a, b, c, d) = È (1, 3, 5, 7, 10, 11, 14, 15)， 其 最 小 SOP 表达 式 为 f=ad+ac; 由 此 
可 看 出 f 不 由 4b 决定 。 图 2-19 展示 了 与 其 等 价 的 与 非 门 电路 ， 中 间 信 号 为 5、x Aly; 逻辑 门 
被 标记 为 G1 到 G4。 
图 2-20 展示 了 当 输 入 从 acd = 111 到 acd = 011 时 电路 的 时 序 图 ; 即 a 从 1 转变 为 0。 
假设 所 有 逻辑 门 的 延迟 为 0.1ns， 线 路 延迟 忽略 不 计 。( 线 路 延迟 超出 本 书 范围 。) 考虑 到 当 输 
AA acd = 111 或 者 acd = 011 时 , f=ad + ac 都 会 产生 f= 1。 然 而 ， 由 于 逻辑 门 存在 延迟 ， 
f 在 0.2 ~ 0.3ns 内 不 会 一 直 为 1， 如 时 序 图 所 示 。 





2-19 ”具有 中 间 信 号 名 字 的 f=d+ ac 电路 图 ; f 不 依赖 于 b 


0123 4 时 间 ( 刻度 0.1ns ) 


2-20 当 a 从 1 转变 为 0 时 ， 图 2-19 中 电路 的 时 序 图 
在 时 间 步 1 中 a 信和 号 在 G1 逻辑 门 中 从 初始 值 0 到 1 的 改变 ， 使 得 0.1ns 的 延迟 后 5 从 0 


变 为 1。 当 a 变 成 0 即 z 变 为 1 时 ， 在 图 中 用 箭头 表示 这 种 变化 。 同 时 ， 在 时 间 步 1 中 ， 信 
5 y Æ G3 逻辑 门 中 在 0.1ns 的 延迟 后 从 0 变 成 1。 信 和 号 az 在 0.1ns 时 的 改变 ， 引 起 了 在 逻辑 
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门 G2 0.1ns 的 延迟 之 后 ， 信 号 x 在 时 间 步 2 中 从 1 到 0 的 改变 。 当 a 变 为 1, x 变 为 0 时 , 在 
图 中 用 箭头 表示 这 种 变化 。 

在 时 间 = 0.1ns 时 ,信号 x 和 y 都 为 逻辑 1， 在 逻辑 门 G4 0.1ns 延迟 后 , f 从 1 转变 为 0。 
在 时 间 = 0.2ns 时 ,信号 x 转变 成 0， 时 间 = 0.3ns 时 , f 在 0.1ns 后 转变 为 1。 此 时 f 一 直 保 
持 为 1。 

信号 f 这 种 非 预 期 的 从 1 变 成 0 又 变 为 1 的 变化 称 为 冒险 或 者 电子 脉冲 ， 它 取决 于 电路 
中 逻辑 门 和 线路 的 延迟 (此 处 线路 延迟 忽略 不 计 )。 在 这 个 例子 中 ， 当 函数 /=adqd+ac 输 入 
从 acd = 111 变 为 acd = 011 时 ， 称 其 有 1- 冒险 。 当 一 个 与 或 (或 者 只 有 或 非 门 ) 电路 的 时 
序 图 展示 了 一 个 从 0 到 1 又 回 到 0 的 非 预 期 的 变化 ， 我 们 就 说 这 个 电路 有 0- 冒险 。 

冒险 违背 了 组 合 电路 的 预期 行为 ， 且 必须 要 阻止 其 影响 数字 系统 的 状态 〈 例 如 寄存 器 内 
容 )。 在 第 4 章 中 ， 我 们 将 介绍 一 种 有 固定 期 限 的 时 钟 信 号 ， 一 直 在 10101010… 中 来 回 
变换 ， 以 控制 寄存 器 的 加 载 时 间 。 在 图 2-20 中 ,输出 f 在 电路 输入 做 出 改变 之 后 的 0.3ns 是 
合法 的 。 时 钟 周期 取决 于 信和 号 的 传播 延迟 和 其 他 在 第 4 章 和 第 5 章 中 提 到 的 延迟 。 


2.6.1 信和 号 传播 延迟 


通常 ， 在 电路 中 有 多 条 从 输入 到 一 个 或 多 个 输出 的 信号 路 径 。 例 如 ， 图 2-19 中 的 输出 
信号 f 由 信号 路 径 G1-G2-G4 或 者 G3-G4 决定 。 当 输入 信和 号 改变 ， 传 播 到 输出 信号 改变 所 需 
的 时 间 是 由 信和 号 路 径 上 的 逻辑 门 的 数目 和 大 小 及 线路 延迟 决定 的 。 最 长 路 径 所 产生 的 延迟 称 
为 电路 的 传输 延迟 。 忽 略 线路 延迟 ， 电 路 的 传输 延迟 与 电路 中 最 长 信号 路 径 的 逻辑 门 数 量 成 
正比 。 图 2-19 中 路 径 G1-G2-G4 是 最 长 路 径 。 这 样 ， 电 路 传输 延迟 和 三 个 逻辑 门 的 延迟 成 
正比 ,或 者 为 0.3ns， 如 图 2-20 所 示 ; 这 里 简单 地 假设 每 个 逻辑 门 有 0.1ns 的 延迟 。0.3ns 的 
延迟 也 是 消除 输出 f 的 1- 冒险 所 需 的 时 间 ， 也 是 当 其 电路 输入 从 acd = 111 到 acd = 011 进 
行 转换 时 ， 根据 其 逻辑 表达 式 使 得 电路 的 输出 f= 1 的 所 需 时 间 。 

通常 来 说 ， 有 多 个 输出 电路 模型 的 传输 延迟 是 由 从 其 输入 到 输出 的 最 长 路 径 决 定 的。 在 
这 个 例子 中 ， 一 些 独 立 的 输出 可 以 有 短 一 些 的 传输 延迟 ; 而 然 ， 在 电路 中 至 少 有 一 个 输出 信 
号 有 最 长 的 路 径 ， 这 决定 了 这 个 电路 模型 的 传输 延迟 。 

实现 SOP 和 POS 表达 式 的 电路 通常 有 一 些 信 号 路 径 包 含 二 级 逻辑 门 或 者 三 级 逻辑 门 ， 
包括 初始 的 非 门 。 这 将 导致 传输 延迟 只 与 两 个 或 者 三 个 逻辑 门 延 迟 成 正比 。 这 样 SOP 或 者 
POS 表达 式 通 常 通过 加 快 输出 速度 来 提高 性 能 。 

然而 ， 包 含 许多 变量 逻辑 项 的 表达 式 可 能 由 于 逻辑 门 的 扇 人 限制 〈 稍 后 讨论 ) 无 法 使 用 
二 级 或 者 三 级 电路 实现 。 在 这 个 例子 中 ， 一 个 表达 式 必 须 可 以 分 成 更 小 的 表达 式 ， 每 一 个 表 
达 式 用 需要 更 少 扇 人 的 逻辑 门 的 更 小 的 电路 实现 。 然 后 更 小 的 电路 连接 起 来 ， 构 成 最 终 的 多 
级 电路 ， 不 考虑 最 初 的 非 门 。 例 如 ，FPGA ， 作 为 一 个 可 编程 芯片 ， 通 常 只 有 有 限 的 资源 而 
无 法 实现 任意 大 小 的 SOP 或 者 POS 表达 式 。FPGA 通常 比 高 性 能 的 定制 芯片 要 慢 。 


2.6.2 BAMA H 


户 入 是 指 一 个 逻辑 门 可 以 拥有 的 输入 个 数 ， 局 出 是 指 一 个 逻辑 门 可 连接 输出 的 连接 数 。 
例如 ， 图 2-21 展示 了 一 个 有 3 个 情人 和 5 个 扇 出 的 与 非 门 。 一 个 非 门 的 情人 永远 为 1。 一 
个 异 或 门 和 异 或 非 门 的 局 入 通常 为 2。 与 门 、 或 门 、 与 非 门 和 或 非 门 的 局 入 可 以 为 多 个 ; 然 
而 ， 每 一 个 门 为 了 运行 正常 ， 都 拥有 最 大 局 和 人 和 最 小 扇 出 限制 (例如 8 )。 
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图 2-21 有 3 个 扇 入 和 5 个 扇 出 的 与 非 门 


2.7 ”其 他 逻辑 门 
作为 对 之 前 标准 逻辑 门 的 补充 ， 这 节 里 将 介绍 一 些 其 他 对 设计 数字 系统 来 说 必需 的 其 他 
巡 辑 门 。 这 些 逻 辑 门 有 缓存 、 集 电极 开路 (OC) 缓冲 区 和 三 态 缓存 。 


2.7.1 缓存 


缓存 的 符号 和 真 值 表 如 图 2-22a 所 示 。 一 个 缓存 不 会 改变 其 输入 信号 ; 只 是 简单 地 放大 
它 。 假 设 与 门 的 请 出 为 5S， 绥 存 可 以 增加 与 门 的 扇 出 至 $ ~ 9， 如 图 2-22b 所 示 。 


In Out ohn | on 


a) 2H RARER 


» 


b) #3 701s tH | 
2-22 RFI): a) 缓冲 符号 及 其 真 值 表 ; b) 用 于 增加 扇 出 的 缓存 


2.7.2 集 电极 开路 缓冲 区 


OC 缓冲 区 和 缓存 门类 似 ， 除 了 当 其 输入 为 逻辑 1 时 ， 其 输出 变 为 高 阻抗 ， 如 Z (图 2-23a) 
所 示 。 高 阻抗 信号 既 不 是 逻辑 0 也 不 是 逻辑 1， 而 是 显示 为 电 隔离 ， 就 像 导 线 是 “浮动 ”的 
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而 不 是 连接 的 。 图 2-23b 展示 了 有 两 个 OC 缓冲 区 的 电路 。 每 一 个 逻辑 门 的 输出 不 是 0 就 是 [61] 
Z， 这 样 输 出 可 以 连接 到 一 起 产生 一 个 输出 信号 f。Z 输 出 可 以 使 用 连接 到 其 他 电源 (例如 
5.0V) 或 者 电源 接地 (0.0V) 的 电阻 “ 拉 起 ”或 者 “ 拉 下 ” 变 为 逻辑 1 或 者 逻辑 0。 图 2-23b 
中 的 Z 输出 是 拉 起 。 
图 2-24 展示 了 使 用 图 2-23b 中 有 两 个 输入 a Alb 的 电路 的 高 阻抗 输出 行为 。 当 a= 0 和 
b= 0 时 ，OC 缓冲 区 Bl 和 B2 输 出 0， 这 样 就 将 了 连接 到 地 ， 即 逻辑 0 (图 2-24a)。 当 a= 
1] 和 b= 1 时 ，OC 缓冲 区 Bl 和 B2 输出 为 Z (浮动 的 ); 这 就 让 ff 连接 到 电源 ， 即 为 逻辑 1 
(图 2-24d)。 当 a=0 和 b=1 或 者 a=1 和 4b=0 时 ， 其 中 一 个 缓存 输出 0 而 其 他 缓存 输出 Z， 
这 样 就 把 f 和 人 逻辑 0 相连 ， 如 图 2-24b 和 图 2-24c 所 示 。4 个 例子 总 结 了 一 张 如 图 2-23b HE 
值 表 。 真 值 表 展示 了 一 个 与 逻辑 ， 和 这 个 例子 中 的 叫 作 线 -与 逻辑 的 电路 。 线 逻辑 电路 可 以 
FARK HA. . 
线 - 与 和 线 -或 逻辑 是 两 种 常见 的 线 逻 辑 电 路 。 例 如 ， 线 逻辑 电路 可 以 用 于 设计 有 扩 
展 槽 的 计算 机 系统 。 在 这 个 例子 中 ， 线 逻辑 电路 可 以 在 计算 机 系统 中 通过 在 一 个 叫 作 设备 控 
filase (DCI) 的 计算 机 扩展 槽 中 插入 扩展 卡 来 增加 功能 ， 例 如 一 个 有 个 输入 的 线 -或 
逻辑 电路 ， 可 以 对 n 个 信号 进行 与 操作 ,信号 可 以 来 自 不 同 的 设备 ， 如 图 2-23c 所 示 。 这 个 
设备 接口 将 在 第 9 章 中 更 详细 地 进行 讨论 。 


In Out RN ea 
ongeneerd. 0 mers ma aaner | WT 
ae Se Ae a 


a) 集 电 极 开 路 缓冲 区 











c) 线 逻 辑 的 应 用 


2-23 ” 集 电 极 开路 缓冲 区 及 其 应 用 : a) 符号 和 真 值 表 ; b) 一 个 二 输入 的 线 -与 逻 
辑 和 真 值 表 ; c) 扩展 槽 设计 图 
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. 图 2-24 二 输入 的 线 -与 逻辑 4 种 不 同 的 输入 情况 





2.7.3 三 态 缓存 
图 2-25 展示 了 三 态 缓存 及 其 真 值 表 。 三 
缓存 是 一 个 缓存 和 一 个 OC 缓存 的 组 合 。 当 使 能 。 
时 (e = 1)， 它 像 一 个 缓存 一 样 工作 ， 但 当 禁 止 pa 
Mt (e = 0)， 其 输出 变 为 Z。 三 态 缓存 用 于 当 输 
人 为 两 个 或 多 个 信号 需要 共享 一 条 叫 作 总 线 的 图 2-25 三 态 缓存 及 其 真 值 表 


线路 的 情况 中 。 通 常 ， 总 线 可 以 用 于 很 多 条 线 
路 。 图 2-26 展示 了 三 态 缓存 到 1 位 总 线 的 连接 。 每 一 次 一 个 使 能 信号 .el 、e2 或 者 e3 可 以 
使 得 对 应 的 信号 a, bak c 放 到 总 线 上 。 其 他 禁用 的 三 态 缓存 将 输出 Z (“浮动 的 ”)， 这 样 可 
以 使 其 与 总 线 隔离 。 

如 果 一 个 电路 模型 输出 到 总 线 和 从 总 线 中 输入 ， 总 线 连接 可 以 是 双向 的 。 图 2-27a 展示 
了 一 个 双向 总 线 连接 的 例子 ， 使 用 一 个 缓存 从 总 线 中 输入 和 一 个 三 态 缓存 输出 到 总 线 中 。 在 
双向 总 线 中 传输 的 数据 项 有 一 个 源 模块 和 一 个 目的 模块 。 源 模块 用 一 个 三 态 缓 存在 总 线 中 放 
置 一 个 数据 项 ， 目 的 模块 用 一 个 缓存 输入 数据 。 如 果 总 线 扇 出 在 目的 模块 中 大 于 1, RFA 
以 保护 系统 在 源 模块 中 免 受 扇 出 干扰 ; 这 就 是 ， 一 个 总 线 信和 号 在 目的 模块 中 与 两 个 或 者 多 个 
逻辑 门 相 连 ， 如 图 2-27a 中 的 目的 模块 C。 

总 线 降 低 了 互 连 的 开销 。 其 可 以 代替 多 个 在 多 个 模块 中 一 对 一 的 连接 (图 2-27b)， 只 要 
数据 (位 数 ) EEREN (频率 ) 可 以 足够 大 来 处 理 负 载 。 这 个 总 线 数 据 速 度 被 称 
为 带宽 。 例 如 ， 在 图 2-27a 中 ， 每 10ns 一 位 数据 可 以 在 一 位 总 线 上 传输 ， 如 果 使 能 信和 号 el, 
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e2 和 e3 每 10ns 只 有 一 个 有 效 ， 或 者 其 中 一 个 使 能 信和 号 在 多 个 10ns 中 有 效 。 可 以 在 每 10ns [64] 
中 传送 1 位 数据 的 1 位 总 线 的 带宽 与 可 以 在 每 100ns 中 可 以 传送 10 位 数据 的 10 位 总 线 的 带 


宽 是 一 样 的 ; 在 100ns 中 ， 两 条 总 线 都 可 以 传送 10 位 数据 。 这 样 ， 总 线 的 宽度 〈 线 路 的 数 
A) 和 总 线 的 速度 (频率 ) 决定 了 总 线 的 带宽 。 


1 位 总 线 


1 位 总 线 

el el 

a a 
e2 e2 

b b 
e3 e3 

Cc C 
a ) 总 线 连 接 b) 也 用 箭头 表示 


2-26 共享 1 位 总 线 的 三 态 缓存 : a) 实际 连接 ; b) 连接 通常 用 箭头 表示 


例 : 源 





b) 三 个 一 对 一 连接 5 





a ) 总 线 连接 


2-27 RHEE: a) 使 用 同一 总 线 的 三 个 模块 互 连 ; b) 一 对 一 连接 的 三 个 模块 


两 个 三 态 缓 存 可 以 用 于 收发 表 (传输 / 接收 ) 电路 连接 ， 例 如 ， 如 图 2-28 所 示 的 两 条 分 
开 的 总 线 。 每 一 个 收发 器 电路 都 有 两 条 总 线 之 间 的 双 回 连接。 方向 〈dir) 信号 决定 了 数据 的 


方向 ， 从 总 线 A 到 总 线 B 或 者 从 总 线 B 到 总 线 A。 当 使 能 Ce) 信号 有 效 时 ， 数 据 连接 到 两 
条 总 线 上 ， 并 保持 它们 一 直 连 接 。 


50 He 2 


‘eh 


BAA BEA BEB HEB 
线路 2 线路 1 线路 2 线路 1 





dir 
图 2-28 显示 两 条 总 线 的 收发 器 模块 [2]; dir 信号 表示 数据 方向 ，e 信号 表示 两 条 总 线 的 连接 


2.8 设计 实例 


在 第 1 章 中 讨论 过 ， 一 个 数据 通路 包括 许多 电路 模块 。 本 节 我 们 将 讨论 一 些 常 见 的 但 是 
比较 小 型 的 组 合 电路 模块 。 在 第 1 章 中 图 1-1 中 所 示 的 “选择 器 ”模块 也 被 叫 作 多 路 转换 器 。 
其 他 将 讨论 的 实例 包括 简单 的 加 法 器 、 译 码 器 和 编码 器 模块 。 

1 位 加 法 器 ， 也 叫 作 全 加 器 (FA)， 产 生 两 个 1 位 输入 的 和 ， 并 输出 一 个 0 或 1 的 传 位 
进位 。 译 码 模块 将 数字 A (0、1、2 等 ) 转换 成 对 应 的 输出 信号 〈 例 如 ,，j、A、 万 等 )。 任 何 
时 候 都 只 有 一 个 输出 及、 等 是 有 效 的 。 另 一 方面 ， 编 码 器 所 做 的 工作 是 译 码 器 的 逆 同 工作 ， 
将 产生 与 输入 信和 号 对 应 的 数字 。 这 节 中 我 们 将 讨论 下 列 实例 ': 

e 高 电 平 信 号 FA 设计 实例 。 

o 1 位 2-1 的 多 路 选择 器 和 1 位 4-1 的 多 路 选择 器 设计 实例 。 

e 低 电 平 输出 信号 的 1-2 译 码 器 设计 实例 。 

e 低 电 平 输入 信和 号 的 3-2 编码 器 设计 实例 。 


2.8.1 Sine 
一 个 全 加 器 有 三 个 1 位 输入 ， 其 中 一 个 输入 是 进位 输入 ( cn)， 输 出 为 一 位 和 (s) 和 一 


AAD EB: SBI 51 


位 进位 输出 (cow)， 如 图 2-29 所 示 。 表 2-8 展示 了 全 加 器 的 真 值 表 。 在 表 中 的 每 一 种 情况 中 ， 
s 和 Cou 都 由 三 位 数据 a、b 和 ci WARE. BEM ARRAY AF RTT AIM aE, BOR 
在 下 一 章 中 讨论 。 


a-b cin 


cout 3 


2-29 FA 的 模型 图 


表 2-8 FA 的 真 值 表 


= i Ol olynr | Or nm|e= 1 Oln 


SAM Cour 的 最 小 SOP 表达 式 如 下 求 得 : 


sta,0.e.) = 
人 @ igh, ) =3(3.5,6,7) 
= a T (2-8 ) 
s =abc,, + abc; + abc,, + abc, 


=ab + ac, + pc 


iv) 


oul 





作为 一 种 选择 ，s 和 cou 表达 式 也 可 以 用 异 或 门 写成 如 公式 mr 所 示 ， oe 
电路 的 门 级 结构 ， 如 图 2-30 所 示 。 然 而 ， 这 个 解法 将 导致 比 公 式 〈《2-8 ) 所 实现 电路 的 更 长 
的 传输 延迟 。 

s =abe, + abc, + abt, + abc, (规范 SOP) 

=c,(ab + ab) +¢,(ab + ab) 
=c,(a@b) +¢,(a@b) 
=a@Mb@ec,, (2-9 ) 
=abc,, + abc,, + abc, + abc, (规范 SOP) 
=(ab + ab)c,, + ab(c,, + ¢;,) 
=(a@ b)c,, + ab 


Cou: 
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Cout 


2-30 FA 电路 的 另 一 种 表达 


传输 延迟 估计 
假设 与 非 门 有 0.1ns 的 延迟 ， 公 式 (2-10 ) 估算 了 公式 〈2-8 ) 中 信号 s 和 cou 的 传输 延 
R, MFS A 表示 。 信 号 s 和 cou 的 SOP 表达 式 分 别 有 三 级 和 二 级 的 逻辑 门 。 在 信号 s 和 
Cour 的 延迟 估算 中 我 们 忽略 掉 了 线路 延迟 。 
As = Anot + Anand + Anand 
=0. Ins +0. Ins +0. Ins 
=0. 3ns 
Ac,,, = Anand + Anand 
=0. Ins +0. Ins 
=0.2ns 
公式 〈2-11 ) 展示 了 公式 (2-9) 中 信号 s 和 con 的 延迟 估算 ，SOP 表达 式 中 的 异 或 门 有 
0.3ns HY HEIR : 


(2-10) 


As =2 * Axor 
=2 *0.3ns 
=0. 6ns | 
Ac,,, = Axor + Anand + Anand 
=0. 3ns +0. Ins +0. Ins 
=0.5ns 


(2-11 ) 


2.8.2 多 路 选择 器 


1 位 2-1 的 多 路 选择 器 ,或 者 缩写 MUX， 是 如 图 2-31 所 示 的 简单 组 合 电 路 。 输 入 x 和 
y 都 为 1 位 数据 ， 信 号 s (选择 器 信号 ) 导致 MUX 输出 x 或 者 y。 如 电路 框图 所 示 ， 标记 1 
和 0 分 别 用 来 标记 x Aly, RARE MUX 的 真 值 表 里 ( 表 2-9)。 当 s= 0 时 ，MUX 输出 y， 
当 s = 1 时，MUX 输出 x。 其 最 小 SOP 表达 式 由 以 下 式 子 决定 : 


a ER eee 
eae | sof Cl) (2-12) 
j | ap 


例如 ， 当 s=0 时 , 公式 (2-12) 计算 结果 符合 预期 ， 即 + =y， 如 下 所 示 : 
r =Oy +0x 
=ly +0 
=v +0 
=y 
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X y S 
X y 
1 : E , 
1 位 2-1 MUX 
r 


r 
a ). MUX 框图 b) MUX 电路 
FA 2-31 1 fi 2-1 MUX 的 电路 框图 






R 2-9 1 fic 2-1 MUX RAR 


S 
0 
0 
0 
0 
l 
1 
l 
l 


r 
0 
1 
0 
l 
0 
0 
1 
l 


类 似 地 ， 当 =1 时 ,MUX 输出 (或 者 选择 ) 输入 x。 图 2-32 展示 了 拥有 4 位 输入 w x 
7 和 z 的 1 位 4-1 的 MUX 电 路 框图 ， 输 入 分 别 标记 为 3 到 0 的 数字 。MUX 需要 两 个 选择 信 
号 ,标记 为 s1 和 so。 表 2-10 展示 了 其 简单 的 真 值 表 。 其 扩展 真 值 表 有 6 个 输入 ， 比 我 们 使 
用 KK 图 所 允许 的 4 个 输入 要 大 。 除 了 使 用 KK 图， 有 两 种 方法 来 确定 4-1 MUX 的 SOP 表达 
xt: 1) 用 Espresso 软件 ; 2) 对 有 4 个 输入 和 2 个 选择 信号 的 公式 (2-12 ) 进行 推算 。 这 就 
是 当 $s150 = 0 = (00) AY , MUX 将 输出 Z, = S\So=1= (01) 时 ， 输出 为 y ; = S150 = 2 = (10) 
时 ， 输 出 为 x， 当 siso=3= (11) 时 ， 输 出 为 w。 其 最 小 SOP 表达 式 为 : 
7 三 31302 + $1S0Y 十 S1 S0X + $1S0W ( 2-13) 
例如 ， 当 s150 = 2 = (10 I}, AR (2-13) 计算 结果 符合 预期 ,为 r =x， 如 下 所 示 : 
r =1.0.2+1.0.741.0.% +1. 0. w 
=0.1.z+0.0.y+1.1.x +1. 0. w 
=0 +0 +x +0 
=g 
4-1 MUX 的 电路 框图 如 图 2-33 所 示 。 当 MUX 的 大 小 增 大 ， 其 扇 人 和 扇 出 需求 也 相应 
地 增 大 。 考 虑 上 述 的 2-1 和 4-1 MUX。 它 们 最 大 鹿 人 和 书 出 需求 分 别 为 2 和 2 以 及 4 和 3。 
大 型 MUX， 如 果 使 用 现在 讨论 的 方法 去 设计 ， 那 么 将 导致 局 人 和 肩 出 问题 。 在 第 3 章 中 ， 
我 们 将 讨论 大 型 组 合 电 路 的 设计 方法 ， 首 先 将 大 型 设计 问题 分 为 多 个 小 型 问题 ， 然 后 对 于 每 
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一 个 小 型 问题 ， 使 用 这 一 章 学 到 的 方法 去 解决 。 之 后 小 型 电路 将 组 合 在 一 起 形成 大 型 组 合 电 
路 ， 其 可 以 避免 任何 的 悄 入 和 怖 出 问题 。 







1 位 4-1 MUX 


2-32 1 位 4-1MUX 框图 


表 2-10 1 位 4-1 MUX 的 化 简 真 值 表 





= 


0 





S IR i= FTN 


ill 





r 


图 2-33 1 位 4-1 MUX 的 电路 框图 ; BAR A= 4, BAR = 2 


2.8.3 ida 


低 电 平 输出 的 1-2 译 码 器 电路 框图 如 图 2-34 所 示 。 低 电 平 标记 引 脚 通常 在 基础 引 脚 上 
加 一 个 气泡 表示 ， 如 图 2-34b 所 示 。 然 而 ， 图 2-34b 中 的 气泡 不 仅仅 是 简单 的 非 门 表示 。 表 
2-11 展示 了 译 码 器 的 真 值 表 。 只 有 一 个 或 者 没有 AM _ 石 输 出 有 效 ， 这 依赖 于 信号 v 和 e 
的 值 。 当 e=1 且 v=0 时 ， 有 =0 (有 效 )。 当 e=1 且 v=1 时 ，_f=0 (4%). Ail, 4 
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e=0 (MEER) H, AM fo MBA 1 (无 效 )。 





a) 低 电 平 输出 信号 标记 b ) 低 电 平 输出 引 脚 标记 f f0 
- c) 电路 
2-34 1-2 译 码 器 的 电路 框图 : a) 有 信号 名 的 电路 框图 ; b) 有 引 脚 标记 的 信号 框 
图 ; c) 译 码 器 电路 


R 2-11 低 电 平 输出 信号 的 1-2 译 码 器 真 值 表 
e 
0 l 
0 I 
l 0 
l | 
信号 _fi 和 _Ah 的 表达 式 可 以 表达 为 SOP 或 者 POS。 然 而 在 这 个 例子 中 ， 对 于 这 些 信 


号 的 SOP 或 者 POS 表达 式 都 是 一 样 的 。 只 有 与 非 门 译 码 器 电路 只 有 一 个 逻辑 门 的 延迟 ， 不 
包括 非 门 (图 2-34c )。 


hie.) = 3 (0,12) = HG) 
_f, =etvt+ev 
_fo(e,v) = &(0,1,3) = (2) 


_fy =e t+v=ev 





KA EAS ai th BY WA is FAAS TT PB ane Se A A Ae, PRR a EMH, 
可 以 用 于 设计 例如 一 些 内 存 或 者 CPU RGR et. PERS ae AT DARA ak, PEH hE 
的 内 容 可 以 进行 读 写 操作 。 当 需要 写 人 一 个 寄存 器 文件 时 (第 1 草 )， 译 人 码 右 也 可 以 用 于 详 
码 一 个 寄存 器 数值 。 


2.8.4 HAR 


低 电 平 输入 信号 的 3-2 编码 器 的 电路 框图 如 图 2-35a 所 示 ， 且 低 电 平 标记 引 脚 也 被 标记 
为 一 个 小 圆圈 ， 如 图 2-35b 所 示 。 表 2-12 展示 了 编码 虎 的 真 值 表 。 在 表 中 输入 信和 号 用 0 ~ 2 


ee a eee. a 


HATRI. Ban as He m hA RA cE HE. iN, 4 z=0 (活跃 的 )， 
y=1 (不 活跃 ) A x = 1 (不 活跃 )， 编 码 器 输出 riro = (00) = 0， 正 确 识 别 有 效 信号 _z 为 
数字 0。 然 而 ， 当 编码 器 的 输入 没有 一 个 是 活路 的 时 候 ， 定 义 男 外 一 个 输出 信号 a (输入 活 
KK) 是 有 必要 的 。 当 a = 1 (有 效 ) 时 ， 表 示 一 个 或 者 多 个 信号 _x、y 和 _z 为 活跃 的 ， 这 样 
2 位 输出 nro 被 定义 为 活跃 的 信和 号。 男 一 方面 ， 当 a = 0 (无 效 ) 时 ， 输 出 riro = (00) 被 忽略 。 

两 个 或 两 个 以 上 的 编码 器 输入 在 同一 时 间 变 为 活跃 是 有 可 能 的 。 例 如 ， 当 x=0, y=0 
和 _z = 1 时， 编码 器 必须 遵照 某 一 信号 优先 级 输出 信号 _x 或 者 信号 对 应 的 数字 。 这 样 的 

编码 器 叫 作 优先 级 编码 器 。 





X y -Z 
= =y 2 
2 v 0 a 
2 1 0 |  。 | 优先 级 3-2 编 码 器 a 
优先 级 3-2 编 码 器 
r1 rO 
rl rO 
a) 低 电 平 输入 信号 标记 b ) 低 电 平 输入 引 脚 标记 r1 rO 
c) 电路 


图 2-35 3-2 编码 器 的 电路 框图 : a) 有 信和 号 名 的 电路 框图 ; b) 有 引 脚 标 
记 的 电路 框图 ; c) 编码 器 电路 


K 2-12 展示 了 3-2 优先 级 编码 器 的 真 值 表 (〈 图 2-35 )， 输 入 信号 _x 有 最 高 优先 级 而 
_z 的 优先 级 最 低 。 当 _x= 0 (活跃 )、 .= 0 QER) 和 _z= 1 (GEWER) 时 ， 编 码 器 输出 a= 1 
和 Filo = (10), 标记 A 为 最 高 优先 级 的 输入 信和 号 。 

信号 a, ri 和 ro 的 POS 表达 式 如 下 所 示 : 





mx,y;z) =11(4,5,6) + I1a(7) 
r(%,¥,2) =_% . 
ratay) = 11(0,1,2;,3,6),+ 0,07) | yz! 00 | 01 | 11] 10 | 


: nena 
ro(x,y,2) = (x) (y) =% +_y at The Po 
a(x,y,z) = I1(7) 
a(x,y,z)=_+_y+_z=_x%+_y+_z [yr[oo[o] i] 10 


lo 


| 
SloS|S|x 
© 
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0 
l 
1 
0 
d 


编码 器 也 可 以 设计 为 没有 输出 信号 a， 如 图 2-36 所 示 。 它 被 设计 成 4-2 AIX, 
没有 信号 a, 但 是 输入 数字 0 是 未 使 用 的 ， 且 与 电源 连接 
(或 者 高 电 平 有 效 的 输入 接地 )， 这 样 可 以 有 效 地 改变 为 3-2 
编码 器 。 当 输入 信号 xx、 了 和 _z 中 没有 一 个 为 活跃 的 时 候 ， 
编码 需 的 输出 为 riro = (00)2 EBARA), KRA 
和 人 是 不 活 牙 的 。 当 一 个 或 多 个 输入 信号 变 为 活跃 时 ， 编 码 天 
分 别 输出 3、2 和 1 来 定义 _x、_y 和 _z 为 活路 信号。 这样 


2A y -E 





消除 了 产生 信号 a 相应 的 逻辑 ， 并 在 设计 时 减少 了 电路 信 r1 r0 
号 ， 如 图 2-35 所 示 。 连 接 到 电源 的 输入 可 以 在 内 部 实现 。 图 2-36 没有 输入 活跃 的 输出 
再 次 地 ， 在 设计 一 个 大 型 编码 器 时 ， 将 用 不 同 的 方法 来 避免 信号 的 3-2 编码 器 框图 
扇 入 扇 出 的 问题 。 


编码 器 也 可 以 拥有 许多 应 用 ， 特 别 是 在 设计 母 版 中 。 例 如 ， 当 外 部 信号 变 为 有 效 时 ， 编 
码 器 可 以 快速 地 通知 CPU。 有 效 外 部 信号 可 以 由 一 个 输入 /输出 设备 产生 或 者 由 板 上 的 给 
CPU 提供 服务 的 模块 产生 。 


2.9 实现 


现代 数字 电路 设计 师 依 靠 CAD 工具 来 将 设计 模型 翻译 成 实现 数据 。 数 字 设 计 CAD T 
具 将 数字 电路 的 描述 综合 (翻译) 成 优化 过 和 对 技术 依赖 的 门 级 描述 ， 称 为 网 表 。 特 定 用 途 
的 集成 芯片 (ASIC) 和 FPGA 都 是 非 定 制 IC 技术 的 例子 。 处 理 器 芯片 是 典型 的 定制 IC 技 
术 的 例子 。 电 路 可 以 用 框图 表示 ， 也 可 以 用 HDL 语言 描述 ， 或 者 同时 使 用 这 两 种 方法 描述 。 
然而 ， 现 代 CAD 工具 需要 将 电路 描述 成 HDL 语言 。 


2.9.1 可 编程 逻辑 器 件 


可 编程 逻辑 器 件 (PLD) 是 预制 的 ， 即 不 包含 任何 制造 缺陷 的 封闭 现成 设备 。 它 们 可 以 
被 编程 (例如 配置 ) 去 实现 网 表 ， 这 个 过 程 是 立即 实现 的 ， 有 时 甚至 是 动态 的 过 程 。 简 单 可 
编程 逻辑 器 件 ( SPLD) 是 所 有 可 编程 逻辑 器 件 中 最 简单 的 一 种 。SPLD 使 用 线 逻 辑 来 实现 逻 
辑 表达 式 ， 且 通常 用 于 实现 小 型 数字 电路 。 复 杂 可 编程 逻辑 器 件 (CPLD) 是 通过 芯片 内 部 
配置 线 通 道 来 实现 更 复杂 逻辑 电路 的 下 一 代 可 编程 逻辑 器 件 。 

我 们 在 第 1 章 中 简要 地 讨论 过 ，FPGA 是 一 种 包含 若干 可 配置 逻辑 块 (CLB)、 可 配置 线 
通道 和 与 芯片 (IO) 引 脚 相连 的 可 配置 IO 模块 PLD 的 现代 版 本 。FPGA 可 以 看 成 是 现代 与 
TTL 7400 芯片 系列 和 电路 板 的 等 价 。7400 系列 是 第 一 代 被 用 于 一 般 用 途 的 IC 芯片 。 该 系 
列 包含 了 标准 逻辑 门 和 更 大 的 一 些 组 合 逻 辑 模块 ， 例 如 MUX、 译 码 器 和 加 法 器 ， 和 一 些 用 
于 设计 时 序 电路 的 模块 。 在 20 世纪 六 七 十 年 代 ， 它 们 被 用 来 设计 小 型 和 大 型 计算 机 。 如 今 
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7400 系列 必 片 有 时 会 用 于 教学 用 途 ， 特 别 是 用 在 逻辑 设计 的 引导 课程 中 。 
i f 6s B Es Es A 


OT fo] ae m ez 
J 
afl 
J 
J 


可 配置 — 
TER a 互 连 开关 块 Lj Wo 模块 ”一 一 线 通道 
图 2-37 简单 FPGA 框图 结构 


FPGA 需要 编程 数据 来 配置 和 将 用 网 表 表示 的 CLB 和 I/O 模块 互 连 起 来 。 一 些 IO 模块 
可 配置 成 输入 引 脚 和 输出 引 脚 。 图 2-37 展示 了 包含 9 个 可 以 实现 一 个 或 两 个 简单 逻辑 功能 
CLB 的 简单 FPGA 的 内 部 构成 。 线 通道 和 开关 组 用 于 每 一 个 CLB 输入 和 输出 与 其 他 CLB 
的 互 连 ， 同 时 也 将 IO 模块 与 IO 引 脚 互 连 起 来 。 

一 些 FPGA 包含 了 配置 存储 器 以 根据 需要 实现 不 同 的 网 表 。 现 代 FPGA 通常 包含 上 千 
个 CLB， 一 些 FPGA 甚至 会 包含 存储 模块 。 还 有 一 些 片 上 系统 (SoC) FPGA 芯片 [3-4] 可 以 
包含 例如 CPU 和 数字 信和 号 处 理 器 (DSP) 这 样 复杂 的 模块 。 对 于 这 些 芯片 ， 我 们 可 以 更 容易 
地 不 需要 加 工地 设计 定制 和 复杂 的 数字 电路 。Altera 和 Xilinx 公司 提供 了 带 有 通用 串 行 总 线 
(USB) 接口 的 FPGA 开发 组 件 [3-5]。 


2.9.2 ”设计 流程 


图 2-38 展示 了 数字 电路 的 一 般 设 计 流 程 。 设 计 流 程 一 般 包 括 设计 输入 、 综 合 和 实现 阶 
段 。 设 计 流 程 里 的 每 一 个 步骤 会 对 目标 电路 产生 一 种 不 同 的 描述 ， 其 中 每 一 个 描述 都 会 去 验 
证 设计 是 否 有 错误 。 

1. 设计 输入 

在 设计 的 这 个 步骤 中 ， 目 标 数字 电路 将 被 手工 地 用 图 形 设计 工具 、HDL 或 者 两 者 共 
同 去 描述 。 在 工业 领域 中 ， 图 形 设 计 工 具 的 严格 使 用 许多 年 以 来 已 逐渐 减少 ， 这 有 利于 我 
们 使 用 HDL。 我 们 将 会 在 2.10 节 讨 论 Verilog HDL。 图 2-39 展示 了 用 图 形 设 计 和 一 种 叫 
LogicWorks 的 仿真 工具 来 设计 全 加 器 的 过 程 [7]。LogicWorks 中 没有 合成 工具 。 图 形 设计 工 
有 具 通 稼 包含 逻辑 门 库 和 一 些 常用 的 组 合 逻 辑 和 时 序 逻 辑 电 路 模块 。 它 也 可 以 包含 7400 th 


系列 的 库 。 此 外 ， 图 形 设 计 工 具 可 以 包括 混合 设计 输入 功能 来 进入 数据 通路 原理 图 ， 数 据 通 
路 中 的 模块 都 是 从 库 中 选择 或 者 用 HDL 设计 的 。 


设计 校 验 
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2-39 ”一 种 图 形 设 计 工 具 LogicWorks 中 全 加 器 的 电路 图 


2. 功能 仿真 
用 图 形 和 /或 HDL 来 设计 电路 必须 通过 校 验 保证 电路 的 运行 符合 预期 。 例 如 ， 给 定 输 
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入 ， 如 图 2-39 所 示 的 全 加 器 的 输出 能 符合 全 加 器 的 真 值 表 吗 ?因为 这 个 校 验 过 程 ， 特 别 是 
对 于 大 型 的 电路 会 消耗 许多 时 间 ， 所 以 校 验 过 程 通常 被 分 为 功能 校 验 过 程 、 合 成 后 校 验 过 程 
和 时 序 校 验 过 程 。 功 能 仿真 只 用 于 校 验 设计 的 正确 性 ， 并 不 关心 其 实现 中 的 问题 。 这 是 保证 
设计 正确 的 第 一 步 。 如 果 电 路 的 功能 仿真 没有 错误 ， 则 合成 就 将 作为 电路 实现 的 第 一 步 ; 然 
而 ,设计 还 可 能 会 有 合成 错误 或 者 时 序 错误 。 

3. 合成 后 仿真 

在 合成 步骤 中 ， 电 路 设计 被 解释 为 其 对 应 的 基于 给 定 技术 可 用 资源 下 的 网 表 ， 例 如 给 定 
的 FPGA 中 每 个 CLB 中 可 用 的 逻辑 资源 。 每 个 CLB 只 能 实现 一 些 简单 的 逻辑 表达 式 一 一 例 
如 ， 两 个 4 变量 的 逻辑 表达 式 。 设 计 逻 辑 表 达 式 需要 把 大 的 逻辑 表达 式 分 为 较 小 的 逻辑 表达 
式 一 一 例如 ， 不 超过 4 变量 的 逻辑 表达 式 。 这 个 较 小 的 逻辑 表达 式 存 储 于 电路 网 表 中 。 

合成 后 仿真 过 程 需要 保证 电路 设计 可 以 正确 地 翻译 和 其 生成 的 网 表 必 须 正 确 地 描述 了 目 
标 电 路 。 合 成 后 仿真 比 时序 仿 真 需 要 更 少 的 处 理 时 间 。 此 外 ,一些 延 迟 信 息 一 一 例如 ，CLB 
信号 传输 延迟 ， 可 能 会 在 合成 后 仿真 中 出 现 。 

”4. 时 序 仿真 

当 网 表 映 射 到 在 计算 机 上 模拟 运行 的 目标 设备 中 的 可 用 资源 之 后 ， 开 始 进行 时 序 仿真 。 
例如 ， 用 FPGA 芯片 的 虚拟 模型 ， 网 表 通 过 一 个 叫 布局 布线 的 过 程 配 置 CLB、1/O 模块 和 线 

在 布局 步骤 中 ， 网 表 中 的 最 小 表达 式 被 分 配 到 CLB ， 电 路 初级 输入 和 输出 信号 通过 IO 
模块 被 分 配 到 IO 引 脚 。 一 些 设计 可 能 也 需要 复杂 的 模型 一 一 例如 ， 已 经 存在 在 心 片 上 的 
CPU. DSP 和 存储 器 。 

在 布线 的 过 程 中 ， 网 表 中 的 信号 依赖 信息 通过 在 芯片 上 的 线 通 道 和 开关 组 将 不 同 CLB 
和 VO 模块 的 信号 连接 起 来 。 然 而 ， 布 局 和 布线 任务 通常 不 是 独立 完成 的 ; CLB 上 的 逻辑 表 
达 式 分 配 、LIO 模块 上 的 初始 IO 信和 号 都 可 以 改变 ， 这 是 为 了 : 1) 最 大 化 地 利用 芯片 上 的 可 
用 资源 ; 2) 将 传输 延迟 减 到 最 小 。 时 序 仿 真是 用 来 保证 设计 时 序 需 求 。 


2.10 硬件 描述 语言 


Verilog #1 VHDL ( VHSIC 或 者 高 速 集 成 电路 ) 是 两 种 用 于 描述 数字 电路 的 工业 标准 
HDL, HDL 用 于 在 形式 上 描述 数字 电路 ， 测 试 台 用 于 生成 电路 测试 (例如 容 右 )。 

如 果 电 路 被 一 组 互 连 的 模块 进行 描述 ， 那 么 我 们 说 这 个 HDL 描述 是 结构 的 。 这 些 模块 
可 以 很 小 ， 如 与 、 或 、 与 非 等 逻辑 门 ， 也 可 以 大 一 些 ， 例 如 译 码 器 、 多 路 选择 器 、 加 法 器 
等 。 一 些 通常 使 用 的 大 模块 ， 如 加 法 器 ， 可 以 预定 上 且 在 合成 过 程 中 使 用 。 

如 果 HDL 代码 描述 了 模块 中 输入 的 关系 且 在 描述 输出 时 使 用 了 例如 “if-else” 或 者 
“case ”的 高 级 语言 ， 那 么 我 们 称 这 个 HDL 描述 为 行为 。 


2.10.1 结构 模型 


本 节 中 ， 我 们 将 简要 介绍 Verilog HDL。 其 他 例子 将 在 本 书 其 他 地 方 提 到 。 然 而 ， 这 里 
的 描述 是 不 完整 的 ， 可 能 需要 一 些 额外 的 引用 。 例 2-11 展示 了 如 图 2-39 中 有 两 个 异 或 门 和 
三 个 与 非 门 的 全 加 器 的 结构 模型 。Verilog 模型 从 关键 字 “ module” 开 始 ， 并 且 包 含 模块 名 
(例如 full adder)， 然 后 是 输入 和 输出 接口 的 列表 (例如 a、b、cin、s 和 cout)。 模 型 描述 以 
关键 字 “endmodule” 结 束 。 接 口 列 表 可 以 以 任何 排序 出 现 ， 但 是 必须 声明 为 “input” 或 者 
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“output”。 那 些 不 声明 为 输入 或 者 输出 的 信号 名 就 被 认为 是 本 地 的 信号 ， 当 结构 化 设计 时 会 
当成 线 使 用 。 例 如 ,例子 中 的 三 个 信号 outl, out2 和 out3 都 是 本 地 的 。 

如 图 2-39 中 的 全 加 器 的 Verilog 结构 模块 : 

module full adder 

( 


input a, D, cin, 
output s, cout 
); //defines a module’s name and its interface signals 


wire outl, out2, out3; //defines local signal names 


xor i (outi, a, BY 

xor x2 (8, OCUutl, cin); 
nand ni(out2, Outi; cin); 
nand n2(out3, a, b); 

nand n3(cout, out2, out3); 


endmodule fe 


标准 逻辑 门 也 称 为 原始 逻辑 门 ， 它 们 可 以 被 Verilog 编译 器 所 识别 ， 不 用 重新 描述 。 例 
子 中 的 xl1、x2、nl、n2 和 n3 是 可 选 的 ， 并 且 是 实例 化 的 异 或 门 和 三 个 与 非 门 给 定 的 名 
称 。 每 一 个 实例 化 原始 逻辑 门 最 左边 的 参数 为 输出 ， 其 余 的 都 是 输入 。 例 如 ， 信 号 outl, s, 
out2 out3 和 cout 都 是 输出 ， 所 以 它们 在 参数 的 最 左边 。 原 始 逻辑 门 可 以 被 一 个 或 者 多 个 
输入 参数 所 实例 化 ， 这 依赖 于 它 的 类 型 。 例 如 ， 一 个 三 输入 的 原始 与 非 门 可 能 包含 一 个 输出 
(最 左边 ) 和 三 个 输入 参数 。 

模块 可 以 用 任何 顺序 进行 实例 化 ， 类 似 于 我 们 在 屏 攻 上 使 用 图 形 设 计 工 具 进行 实例 化 的 
过 程 (例如 图 2-39 )。 模 块 的 互 连 情 况 由 其 端口 列表 确定 。 例 如 ， 第 一 个 实例 化 原始 异 或 门 
以 outl 作为 其 输出 接口 ， 第 二 个 原始 异 或 门 用 outl 作为 其 输入 接口 。 这 意味 着 有 一 条 线 连 
接 两 个 outl 接口 。 类 似 地 ,out2 和 out3 信号 分 别 用 一 条 线 连接 。 这 些 信号 都 被 声明 为 “ 线 " 。 

如 例 2-12 中 的 例子 ， 测 试 台 模 块 也 用 HDL 进行 描述 ， 其 功能 是 测试 电路 模块 ， 例 如 例 
2-11 中 的 全 加 器 模块 。 测 试 台 模块 没有 输入 和 输出 接口 。 我 们 可 能 需要 include 指令 (取决 
于 设计 工具 ) 来 导入 另 一 个 模块 中 非 原始 但 已 经 用 HDL 创建 的 模块 一 一 例如 ， 测 试 台 。 通 
常 每 一 个 被 导入 的 模块 可 以 被 实例 化 一 次 或 多 次 ， 在 调试 前 根据 需要 创建 目标 电路 模块 。 在 
例 2-12 中 ,“full_ adder”HDL 模块 被 导入 且 在 调试 中 被 实例 化 了 一 次 。 

初始 块 用 于 列 出 “ full adder ”模块 的 测试 容器 。 所 有 初始 块 中 的 语句 都 必须 按照 顺序 
处 理 。 初 始 块 或 者 永久 块 〈 稍 后 讨论 ) 中 所 有 在 赋值 运算 符 (例如 =) 左边 的 变量 都 要 声明 
为 reg 类 型 。 当 描述 组 合 电 路 时 ，reg 类 型 没有 具体 的 意义 。 然 而 reg 类 型 在 设计 时 序 电 
路 时 将 会 非常 重要 。 

测试 例 2-11 中 全 加 器 结构 模块 的 测试 台 : 


‘include "full adder.v" //input FA's description from local folder 
module tester (); 
reg a, b, cin; 


wire s, cout; 
full adder fal(a, b, cin, s, cout); //instantiate FA 


initial begin //start the test 

$display ("Time a b cin cout s"); //header for the output 
Smonitor ("%4d tb %b", $time, cout, s); 

a=0; b=0; cin= 0; S$display("%4d tb tb tb", Stime, a, D, cin); 
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//test 1 

#1 //simulate 

a=1; b= 1; cin=0; $display("%t4d tb tb tb", Stime, a, b, cin); 
//test 2 

#1 //simulate 

a= 1; b= 1; cin = 1; $display("%4d tb tb tb", $time, a, b, cin); 
//test 3 

#1 //simulate 

$finish; //stops simulation 

end 

endmodule E 


当 使 用 没有 调试 功能 的 设计 工具 时 ，$display 语句 可 以 用 来 输出 一 个 或 者 多 个 输入 
信号 的 值 。 男 一 方面 ，$monitor 语句 在 仿真 运行 期 间 只 输入 一 次 来 跟踪 一 个 或 者 多 个 信号 
(输入 或 者 输出 )。 每 一 次 Smonitor 语句 中 列 出 信号 的 值 发 生 改 变 ， 语句 就 会 被 执行 来 输出 
信号 值 。$display 语句 和 $monitor 语句 句法 是 一 样 的 ， 与 C 编程 语言 中 的 “printf” 
语句 相似 。 输 出 格式 “%d”、“%h”、“%o” 和 “%b” 可 以 分 别 用 于 表示 十 进 制 、 十 六 进 制 、 
八进制 和 二 进 制 的 数值 。 附 加 输出 格式 ,例如 “%s” 和 “%£” 用 于 表示 字符 串 和 浮 点 数值 。 

仿真 的 时 间 步 是 使 用 符号 “# ”后 跟着 代表 仿真 时 间 长 度 的 整数 表示 。 如 果 假 定 一 个 模 
块 没 有 延迟 ， 功 能 仿真 将 假定 每 个 模块 都 没有 传输 延迟 ， 并 且 在 一 个 仿真 时 间 (#1) 内 可 以 
产生 输出 。 

如 果 使 用 Synopsys 设计 工具 ， 调 试 例 2-12 中 FA 模块 的 仿真 输出 如 下 所 示 。 我 们 可 以 
Baa- 1,b=1,cin=1 时 , Smonitor 语句 在 仿真 时 间 = 2 时 输出 s = 1,cout = 1, 


Chronologic VCS simulator 
Contains Synopsys proprietary information. 
Compiler version D-2009.12; Runtime version D-2009.12; 


Time a b cin cout B 
0 0 0 0 
0 0 0 
1 1 1 0 
1 1 0 
2 1 1 $ 
2 1 1 


S$finish called from file "tester2.v", line 18. 
sfinish at simulation time 3 


VCS Simulation Report 
Time: 3 
CPU Time: 0.460 seconds; Data structure size: 0.0Mb 

“=” 符 号 被 称 为 块 赋值 。 所 有 的 包含 在 原始 块 或 者 永久 块 中 的 块 赋值 语句 按 一 定 的 顺 
序 进行 评估 ， 这 个 过 程 类 似 于 编程 语言 。 另 一 方面 ， 非 块 赋值 ( 稍 后 讨论 ) 用 符号 “<= ” 表 
示 ， 并 且 与 其 他 在 原始 块 或 者 永久 块 中 的 非 块 赋值 语句 同时 执行 。 包 含 在 原始 块 中 的 HDL 
语句 只 被 评估 一 次 ， 就 像 真 正 的 电路 一 接 通 电源 就 开始 工作 ; 而 包含 在 永久 块 中 的 HDL 语 
句 只 要 电路 是 在 仿真 阶段 中 就 会 被 评估 。 

Verilog 还 可 以 支持 “ for 循环 ”"、“ case ”( switch)、“ forever” 和 其 他 控制 语句 。 然 而 ， 
不 是 所 有 的 Verilog 语句 都 可 以 进行 合成 。 如 例 2-13 所 示 的 测试 台 ， 用 for 循环 完全 测试 了 
FA 模块 。 在 例子 中 ,信号 a、b 和 cin 都 被 声明 为 1 位 reg， 而 用 在 for 循环 中 的 变量 k， 
用 小 尾数 顺序 声明 为 4 位 reg. 语句 “reg [0:3] k;” 将 k 定 义 为 大 尾数 顺序 。 多 位 
变量 可 以 作为 一 个 组 或 者 按 位 进行 操作 引用 。 例 如 ， 在 例子 中 k[2] 表示 变量 k 的 第 三 位 ， 
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k[0] 表示 k 中 的 最 低 有 效 位 (LSB)。 
完全 测试 例 2-11 中 FA 结构 模块 的 测试 台 模 块 : 


‘include "full adder.v" 
module tester(); 
reg a, b; cin; 


reg [3:0] k; : 
wire s, cout; 


full _ adder - «falila, by Cin, Ss, cout); 


initial begin | 
Sdisplay("Time a b cin cout s"); 
Smonitor ("%4d 3b tb", $time, cout, s); 


for (k = 0; k <= 7; k = kt1) begin 
#1 a= k[2]; b= k[1]; cin =k[0]; Sdisplay("%4d tb tb tb", 
Stime, a, b, cin); 
end 
#10 $finish; //stops simulation 
end 
endmodule a 


在 例 2-13 的 测试 人 台中， 在 每 一 个 仿真 步骤 ， 都 有 新 的 数值 赋 给 输入 信号 a、b 和 cin. 
输入 信号 也 可 以 在 每 一 个 仿真 步骤 中 显示 。 在 每 一 个 仿真 步骤 结束 后 ，$monitor 语句 自动 
地 显示 输出 信号 的 数值 ， 展 示 一 个 或 者 多 个 信号 值 的 变化 。 仿 真 运 行 中 的 输出 将 会 在 下 一 步 
展示 。 当 测试 容器 为 a=0、b=0 和 cin=1, a=0, b=1 和 cin=0, a=1、 b=0 Mcin=1, 
a=1、b=1 和 cin=0 时 ,信号 s 和 cout 不 改变 ，$monitor 语句 不 会 显示 输出 信和 号。 


Chronologic VCS simulator 
Contains Synopsys proprietary information. 
Compiler version D-2009.12; Runtime version D-2009.12; 


Time a b cin cout s 
0 x x 
L 0 0 0 
1 0 0 
2 0 0 5 A 
2 0 1. 
3 0 1 0 
4 0 1 1 
4 1 0 
5 i 0 0 
5 0 1 
6 1 0 a 
6 L 0 
7 1 1 0 
8 L 工 1 
8 I; I 


Sfinish called from file "tester.v", line 16. 
Sfinish at simulation time 18 


VCS 仿真 报告 
Time: 18 
CPU Time: 0.390 seconds; Data structure size: 0.0Mb 


2.10.2 ”传输 延迟 仿真 
在 每 一 个 初始 逻辑 门 在 实例 化 的 过 程 中 也 可 以 包含 可 选 的 传输 延迟 。 这 就 提供 了 更 现实 
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的 功能 仿真 。 例 2-14 描述 了 原始 与 非 门 有 lns 延迟 ， 原 始 异 或 门 有 3ns 延迟 的 全 加 器 。 由 
此 可 得 As=6ns, Acout=5ns, 
有 延迟 的 用 原始 逻辑 门 实现 的 FA 的 结构 化 模块 : 


‘timescale 1ns/100ps 
module full adder 
( 
input a; By Cin, 
output s, cout 
E 


wire outl, out2, out3; 


xor #3 xl(outl, a, b); 

xor #3 x2(s, OUEL, Gin); 
nand #1 ni(out2, outl, cin); 
nand #1 n2(out3, a, b); 

nand #1 n3(cout, out2, out3); 


endmodule | 


编译 项 语句 “timescale 表示 仿真 中 应 用 的 时 间 范 围 。 例 2-14 PAY “timescale if 
句 定 义 了 有 100ps〈 皮 秒 ) 增 量 的 lns。 然 而 ， 这 个 时 间 范 围 仅仅 是 一 个 估计 ， 仿 真 结果 并 没 
有 提供 真正 的 时 间 数 据 。 

例 2-15 中 的 测试 台 包 含 了 分 别 在 仿真 时 间 0 和 10 进入 的 两 个 测试 容器 。 如 下 仿真 输出 
ER, RRS cout M s 的 值 都 为 未 知 (“x”)。 对 于 测试 容器 在 仿真 时 间 = 0 时 的 a = 0、 
b=0 和 cin = 1, 语句 $monitor 有 输出 ， 在 仿真 时 间 =5 时 ,输出 cout = 0， 在 仿真 时 间 = 6 
时 ， 输 出 s = 1， 与 预期 相符 。 对 于 测试 容器 在 仿真 时 间 = 10 时 的 a=0、b5=1 和 cin= 1， 
在 仿真 时 间 = 15 输出 cout = 1， 在 仿真 时 间 = 16， 输 出 s = 0， 与 预期 相符 。 这 两 个 测试 容 
器 骏 露 出 了 电路 最 严重 的 延迟 情况 。 

有 延迟 的 FA 全 加 器 模块 的 测试 台 : 


‘include “full adder.v" 
‘timescale 1ns/100ps 
module tester(); 

reg a, b, cin; 


wire s, cout; 


full adder falla; b, cin, 8, cout): 
initial begin 
Sdisplay("Time a b cin cout s"); 
Smonitor ("%4d vb %b", $time, cout, s); 
a=0; b=0; ci = 1; S$display("%4d tb %b %b", $time, a, b, ci); 
#10 
a=0; b= 1; ci = 1; $display("%4d %tb %b %b", $time; a, b, ci); 
#10 Sfinish; 
end 
endmodule 


Chronologic VCS simulator copyright 1991-2005 
Contains Synopsys proprietary information. 


Time a b G ‘out 8 
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CPU Time: 0.040 seconds; Data structure size: 0.0Mb y 
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部 的 延迟 数值 决定 的 。 然 而 ， 我们 可 以 在 实例 化 过 程 中 用 参数 化 的 延迟 去 重 写 延 迟 信 息 。 


2.10.3 行为 建 模 


Verilog 中 最 基础 的 行为 描述 是 赋值 语句 。 它 使 用 符号 “~”“&”“|” 和 “^” 直 接 
进入 一 个 布尔 表达 式 分 别 去 按 位 表达 非 、 与 、 或 和 蜡 或 操作 。 与 非 、 或 非 和 异 或 非 操作 也 
可 以 分 别 用 符号 组 合 “&~”"、“|~” 和 “~^” 或 者 “^~” 表 示 。 表 2-13 总 结 了 Verilog HDL 
中 的 操作 符 。 例 2-16 使 用 赋值 语句 展示 了 1 位 2-1 MUX. 


表 2-13 Verilog HDL 操作 符 总 结 


优先 级 | 操作 符 类 型 示 例 
最 高 +a,—a (a 取 反 )，!a GES), ~a( 按 位 取 反 ) 


指数 a ** 3 (a 的 立方 ) 
1 类 算术 * /,% a*b( 乘 )，a/b( 除 )，a % b( 取 余 ) 
2 类 算 a+b (加 )，a 一 b ( 减 ) 


È 
i 
ee 


m 
> ; 
TE 
l 
l 
l 


逻辑 <<, >> a << 2 ( 左 移 2 位 ) 

<<<, >>> a >>> 3 (包括 符号 位 右 移 3 fiz) 
关系 的 <, <= , >, >= a>=b (a 大 于 等 于 b) 

a == b 如 果 a 与 b 相 同 ， 不 包含 x 和 z 


a === b 如 果 a 与 b 相 同 ， 包 含 x 和 z 


&, |, ~, ^ a&b (与 ,alb (或 )，~a (JE), a^b (Hm) 

&~ A^ a &~ b (与 非 )， a |~ b (R3F), a ~^( 异 或 非 )，a^~ b( 异 或 非 ) 
&&, |l, ! a &&b (5), allb (BK), !a (ÌE) 

(a>=b)?a-—b:b-a 


Re 
就 


se $ 

n> Rá w 
HE | j | > 
F| S/S 


il 
ZR 


UPA 用 赋值 语句 描述 1 位 2-1 MUX 的 行为 模块 


module muxlbit 


( 
input s, 
input x; Ws 
output r 
); 
assign r=-s&x|s & y; 


endmodule Ei 
描述 电路 行为 最 常 使 用 的 语句 叫 永 久 块 。 我 们 用 关键 字 “always” 后 面 跟着 符号 @ 
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和 一 个 称 为 块 的 敏感 列表 的 信号 名 列表 来 声明 永久 块 ， 和 初始 (initial) RAW, KAR 
也 包含 begin-endq 块 。 例 2-17 展示 了 使 用 “ if-else ”语句 表示 1 2-1 MUX 的 另 一 种 行 
为 模型 。 因 为 + 信号 依赖 于 信号 s、x 和 y， 这 些 信 号 都 会 包括 在 永久 块 的 敏感 列表 中 。 

使 用 “if-else ”语句 表示 1 位 2-1 MUX 的 行为 模型 : 


module muxlbits 


output reg r 


3 


always@(s or x or y) 


begin 
if (s = 1'bO) 
Y= X; 
else 
r = Vi 
end 
endmodule i 


与 初始 块 类 似 ， 永 久 块 中 所 有 在 赋值 符号 (=) 左边 的 变量 必须 被 声明 为 reg 类 型 。 声 
明 一 个 同时 为 output 和 reg 类 型 的 输出 变量 的 正确 方法 为 用 语法 output reg 来 声明 ， 
如 例 2-17 所 示 。 

语法 1'b0 用 来 表示 1 位 二 进 制 数 。 其 他 表示 数字 的 例子 有 5’b11111、8’hFF 和 
90777, 分 别 表 示 5 位 二 进 制 数 (11111), 8 位 十 六 进 制 数 0xFF、9 位 八进制 数 (777)s， 这 
里 “8” 用 来 表示 一 个 八进制 数 。 

依赖 于 编译 器 的 版 本 ， 也 有 另外 的 语法 来 描述 敏感 列表 。 例 如 ,“ always@(s or x 
or y)”, “always@(s, x, y)”、“always@(*) ”或 者 “always@*” 都 是 可 接受 的 
表示 组 合 电 路 敏感 列表 的 语法 。 此 外 ， 在 组 合 永久 块 中 用 * 表示 敏感 列表 是 最 常见 的 语法 ， 
可 以 允许 编译 表决 定 敏感 变量 的 列表 。 敏 感 列表 中 遗漏 变量 可 以 导致 组 合 电 路 行为 的 错误 。 

例 2-18 用 case 语句 表达 其 真 值 表 展示 了 FA 全 加 器 模块 的 行为 。 在 例子 中 ， 大 括号 
(H) 表示 一 个 级 联 。“ aefault ”情况 也 是 考虑 遗漏 情况 的 正常 操作 。 可 接受 的 信号 值 为 
0, 1, x (未 知 ) 和 z (高 阻抗 ，Z)。 作 为 一 种 选择 ,“ casex” 和 忽略 x 和 z 信 号 值 并 且 把 它 
们 视 为 无 关 项 。 

用 “case” 语 句 表示 的 FA 全 加 器 行为 模块 : 


module full adder 

( 
input a, b, cin, 
output reg s, cout 


J3 


always@(a or b or cin) 
begin 

case ({a, b, cin}) 

3'b000: begin s = 0; 
b001: begin s 
b010: begin s 
b011: begin s 
'bÞ100: begin s 
‘b101: begin 8 
‘b110: begin s 


OopPOoOPPDO 
Q 
O 
e 
ct 
toi kua yx 
PPOPOODOD 
M 
=) 
er 


WWW WW WwW 
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3’°b1l11: begin s = 1; cout = 1; end 
default: begin s = 0; cout = 0; end 
endcase 
end 
endmodule E 
例 2-19 展示 了 有 低 电 平 使 能 信号 4 位 三 态 缓存 行为 描述 ， 这 里 的 4"bz 表示 一 个 4 位 
高 阻抗 Z 值 。 
UPAR 4 位 三 态 缓存 的 行为 模块 : 


module tristate4bits 


( 


input _e, //declared active-low 

anput [3:0] x, 

output reg [3:0] r 
站 
always@ (*) 


begin 
if ( e = 1’b0) 
crc => X; 
else 
+= 4*bss /OF r = 4*bezzs; 
end 
endmodule 


2.10.4 综合 与 仿真 


例 2-18 中 FA 全 加 器 HDL 模型 运用 了 Altera Quartus II 设计 和 综合 工具 来 进行 综合 [4]。 
在 综合 过 程 中 ， 使 用 了 一 种 叫 EP4CGX15BF14A7 1.2V 的 Altera Cyclone IV GX 系列 中 的 可 
编程 芯片 。 综 合 后 的 电路 可 以 用 Altera ModelSim 仿真 工具 来 进行 仿真 。 图 2-40 展示 了 有 两 
个 CLB 来 实现 和 值 和 进位 输出 的 表达 式 的 综合 电路 。 在 这 个 例子 中 , Aa, bA cin, VA 


及 输出 s 和 cout 都 使 用 缓存 来 防止 可 能 的 扇 出 问题 。 图 2-41 展示 了 有 8 个 测试 容 吉 波形 的 
综合 电路 的 仿真。 


ci 





out 





图 2-40 $i 2-18 中 FA 全 加 器 行为 模块 的 综合 电路 


类 似 的 ， 例 2-19 中 的 4 位 三 态 缓存 模型 也 可 以 用 Altera 设计 、 综 合 和 仿真 工具 进行 综 
合 和 仿真 。 综 合 电路 如 图 2-42 所 示 。 因 为 使 能 信号 _e 是 低 电 平 信 号 ， 所 以 不 需要 附加 的 非 
门 来 操作 低 电 平 使 能 的 三 态 缓存 。 有 两 个 测试 容器 的 综合 电路 的 仿真 图 如 图 2-43 所 示 。 
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图 2-41 图 2-40 中 综合 FA 全 加 器 电路 的 门 级 仿真 





图 2-42 Ħ Altera Quartus 中 设计 工具 合成 的 4 位 三 态 缓存 综合 电路 
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练习 | 
2.1 4x=1, y= 2=1Mx=1, y=1, 2-0, HAES = +920 
2.2 当 c=0、x=1 和 c=1、x=1 且 _c 是 一 个 低 电 平 信号 时 ,计算 y=_c%+_cx。 


2.3 ”分 别 求 出 f=xyY 和 g =x+7Y 的 真 值 表 ， 并 证 明 德 摩根 定律 xy =x +yY。 它 们 的 真 值 表 一 样 吗 ? 

2.4 分别 求 出 f=x+Y 和 g =xY 的 真 值 表 ， 并 证 明 德 摩根 定律 X*+yY =*y。 它 们 的 真 值 表 一 样 吗 ? 

2.5 画 出 /=xy+yz 的 电路 图 ， 然 后 按照 本 书 中 介绍 的 步骤 将 其 转换 成 用 与 非 门 表示 的 电路 。 

26 4x=1, y=0, z=1 和 x=1, y=s1 和 z=0 时 ， 计算 f= 4 +7) (9 +z) 

2.7 画 出 f= (x+y)(Y+z) 的 电路 图 ， 然后 按照 本 书 中 介绍 的 步骤 将 其 转换 成 用 或 非 门 表示 的 电路 。 

2.8 ”给 出 表达 式 f=xY +yz (SOP 表达 式 )， 求 出 与 其 等 价 的 POS 表达 式 。 提 示 : 首先 运用 规则 “下 的 

POS 表达 式 = fH SOP 表达 式 的 取 反 ” 找 出 /的 SOP RER. 

2.9 对 的 SOP RAAS = xy +yz 运 用 对 偶 定 律 求 出 了 的 POS 表达 式 。 

2.10 ”假设 我 们 需要 建立 函数 Y = 2X + 3， 其 中 在 硬件 中 X 代表 3 位 无 符号 数值 (x2xlx0)2，Y 代表 5 
位 数值 4..70。 当 输入 位 为 z2、xl 和 x0， 输 出 位 为 y4 到 y0 时 ， 建 立 真 值 表 。 然 后 对 于 y2 (也 
可 以 对 其 他 输出 重复 这 些 工作 ): 
a. 求 出 输出 位 y2 的 规范 SOP 表达 式 。 





70 


2.11 
2.12 
2:413 
2.14 


2:13 
2.16 


2:17 
2.18 


2:19 


2.20 
2.21 


2.22 


2.23 
2.24 
2.25 
2.26 


2.21 
2.28 
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b. 写 出 y2 的 最 小 项 。 

c. H K 图 找 出 y2 的 最 小 SOP 表达 式 。 

d. 画 出 y2 的 与 非 门 最 小 电路 。 

e. 比较 规范 SOP 表达 式 和 最 小 SOP 表达 式 所 需要 的 三 极 管 数 目 。 

用 y2 的 POS 表达 式 重 复 2.10 PHAR, 

重复 2.10 中 b ~ 4d 步 , 但 是 这 次 对 义 使 用 3 位 2 的 补 码 值 且 输出 y4。 

重复 2.12 Fb ~ dH, 但 是 这 次 使 用 y4 的 POS 表达 式 。 

用 KK 图 的 方法 找 出 下 列 函 数 的 最 小 SOP RAR: 

a. f(w,x,yv,z) = >(0,2,8,10) + 5.(12,14) 

b. g(a,b,c,d) = ¥(5,7,13,15) + ¥,(6,14) 

c. h(w,x,y,z) =11(0,2,8,10) + I1,(12,14) 

d.t(a,b,c,d) = 11(5,7,13,15) + (6,14) 

找 出 2.14 中 函数 的 最 小 POS 表达 式 。 

用 Espresso 软件 生成 函数 Y= 2X + 3 所 有 输出 位 的 最 小 SOP 表达 式 ， 这 里 X 是 小 于 10 的 4 位 

无 符号 数值 。 当 X 数值 为 10 ~ 15 时 ， 当 作 无 关 项 忽略 掉 。 

重复 练习 2.16, 但 是 用 4 位 2 的 补 码 数 值 , H-5<xX <5, HRB K <S-SAIX SS, 

2 rE PRIX Y = X mod 7, X = x3x2x1x0, HA 4 MAA SMA, Y=y2yly0, HA3MAASAR, 

建立 Y MAR, ARE y2, yl 和 y0 的 SOP 和 POS 表达 式 。 

用 逻辑 化 简 算 法 求 出 函数 Y=X -3 中 的 y0 的 最 小 SOP 表达 式 ， 这 里 X = x3..x0,， Y = y3..y0, 

它们 都 是 4 位 2 的 补 码 数值 。 

用 逻辑 化 简 算法 求 出 y= (2, 3, 6, 9, 10, 13) 的 最 小 SOP 表达 式 。 

f (a, b, c, d)= È (1, 3, 5, 7, 10, 11, 14, 15) 的 素 玖 含 为 ad + ac 和 cd。 最 小 表达 式 f = ad + ac 的 时 序 

图 如 图 2-25 所 示 。 画 出 非 最 小 表达 式 f= ad +ac +cd 的 电路 图 ， 要 包含 其 所 有 素 列 含 ， 且 标 出 

所 有 中 间 信 号 。 当 其 输入 从 acd = 111 到 acd = 011 时 ， 画 出 电路 的 时 序 图 。 所 画 的 电路 会 产生 

故障 吗 ? 

K% f (a, b, c, d) = II (0, 2, 4, 6, 8, 9, 12, 13) 的 最 小 POS 表达 式 有 两 个 基本 的 素 蕴含 (a + b) 和 

(a+c), UR—PAREBAM RAF (c+). 

a. 当 输入 从 acd = 000 改变 为 acd = 100 时 ， 男 出 最 小 表达 式 f = (a + d) (a +c) 的 时 序 图 。 所 男 
电路 会 产生 故障 吗 ? 

b. 当 输入 从 acd = 000 改变 为 ucd = 100 时 ， 画 出 非 最 小 表达 式 f= (a +d) (+c) (c+d) 的 时 序 图 。 
考虑 到 jj 包括 其 所 有 的 素 列 含 。 这 里 会 有 1- 冒险 吗 ? 

设计 一 个 二 输入 的 线 - 或 门 〈 提 示 : 运用 德 摩根 定律 )。 

求 出 图 2-31 中 2-1 MUX 的 POS 表达 式 。 

用 4-1 MUX 设计 函数 f(w,x)= (0, 2). | 

用 2-4 译 码 器 连接 4 个 模块 ， 每 个 模块 输出 一 位 到 一 位 总 线 上 。 每 一 次 只 有 一 个 模块 可 以 将 数 

据 放置 在 总 线 上 。 有 时 任意 模块 将 不 允许 在 总 线 上 放置 数据 。 给 出 细节 。 

用 与 非 门 设计 图 2-35 中 的 3-2 译 码 器 电路 。 

假设 在 问题 22 中 的 译 码 器 可 以 循环 地 在 每 10ns 中 激活 每 个 输出 信号 ， 并 在 每 10ns 中 允许 每 个 

模块 输出 一 位 。 问 在 每 个 模块 中 以 字 节 传输 数据 的 最 高 速度 是 多 少 ? 总 线 的 最 大 带宽 是 多 少 ? 

提示 : 传输 速度 和 带宽 单位 为 字 节 / 秒 。 传 输 数 据 的 最 高 速度 是 每 秒 钟 模块 可 以 传送 数据 的 最 大 
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字 节 数 (单位 为 KB、MB 等 )。 最 大 总 线 带宽 是 总 线 在 每 秒 钟 可 以 传输 的 字 节 最 大 值 。 
对 于 函数 f=xyY +yz， 建 立 变 量 x、y 和 z Verilog 模型 并 进行 仿真 ， 分 别 使 用 : 

a. 非 门 、 与 门 和 或 门 结构 描述 。 

b. 非 门 和 与 非 门 结构 描述 。 

c. 有 Ins 延迟 的 非 门 、 与 非 门 和 有 2ns 延迟 的 与 门 和 或 门 结构 描述 。 

d. 用 “assign” 语 句 进行 行为 描述 。 

e. 用 “always ”语句 进行 行为 描述 。 


对 于 函数 太 = (x +y)(7y +z), Sweex. y 和 z Verilog 模型 并 进行 仿真 ， 分 别 使 用 : 


a. 非 门 、 与 门 和 或 门 结构 描述 。 

b. 非 门 和 或 非 门 结构 描述 。 

c. 有 Ins 延迟 的 非 门 、 或 非 门 和 有 2ns 延迟 的 与 门 和 或 门 结构 描述 。 
d. 用 “assign” 语 句 进 行 行为 描述 。 

e. 用 “always ”语句 进行 行为 描述 。 

建立 1-4 MUX 的 Verilog 行为 描述 并 进行 仿真 ， 符 合 以 下 要 求 : 

a. 用 “if-else ”语句 。 

b. H “case” Ejo 


建立 2-4 译 码 器 的 Verilog 行为 描述 并 进行 仿真 。 使 用 正确 的 极 性 来 标记 信号 名 (例如 ， 


用 于 表示 低 电 平 信 号 ，x 可 以 用 于 表示 高 电 平 信号 )。 
a. 高 电 平 输入 和 高 电 平 输出 ， 使 用 “always ”语句 。 
b. 高 电 平 输入 和 低 电 平 输出 ， 使 用 “always ”语句 。 


建立 3-2 译 码 器 的 Verilog 行为 描述 并 进行 仿真 。 使 用 正确 的 极 性 来 标记 信号 名 (例如 ， 


用 于 表示 低 电 平 信号 ，x 可 以 用 于 表示 高 电 平 信号 )。 
a. 高 电 平 输入 和 高 电 平 输出 ， 使 用 “always ”语句 。 
b. 低 电 平 输入 和 高 电 平 输出 ， 使 用 “always ”语句 。 
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第 3 章 | 


Digital Logic Design and Computer Organization with Computer Architecture for Security 


组 合 电路 : 大 型 设计 





3.1 简介 


在 前 一 章 中 介绍 的 设计 技术 只 适用 于 很 少 输入 数目 的 组 合 电路 。 有 很 多 输入 的 组 合 电路 
必须 以 不 同 的 方式 设计 。 例 如 ， 考 虑 有 n = 32 个 输入 的 组 合 电路 。 其 真 值 表 可 能 会 有 超过 
40 亿 行 一 一 对 于 第 2 章 介 绍 的 设计 电路 方法 来 说 ， 这 个 数目 特别 巨大 。 再 有 ， 大 型 电路 肯 
定 会 遇 到 设计 古人 和 扇 出 的 需求 。 这 就 要 求 一 种 自 顶 向 下 的 方法 ， 将 大 型 组 合 电路 设计 问题 
反复 地 分 成 较 小 的 问题 ， 直 至 小 到 可 以 用 第 2 章 所 学 的 设计 技术 来 解决 为 止 。 然 后 大 型 电路 
通过 将 较 小 型 电路 模块 进行 组 装 来 设计 完成 。 

具有 加 法 、 减 法 、 乘 法 和 除法 等 初级 算术 操作 的 电路 是 大 型 电路 应 用 于 处 理 器 的 例子 。 
类 似 于 软件 解决 方案 可 以 实现 需要 不 同 处 理 器 时 间 和 存储 器 使 用 情况 的 代替 算法 ， 大 型 组 合 
电路 可 以 用 不 同 总 量 的 硬件 实现 (例如 三 极 管 数量 )。 具 有 越 多 的 三 极 管 数量 的 电路 解决 方 
案 ， 通 第 意味 着 具有 更 小 的 电路 延迟 来 执行 更 高 数量 的 逻辑 操作 ， 但 也 更 耗 能 量 。 

通常 ， 更 多 的 硬件 意味 着 更 少 的 处 理 时 间 。 包 含 快 速算 法 模块 的 CPU 有 望 更 快 地 运行 ; 
多 核 处 理 器 有 望 比 单 核 处 理 器 运行 任务 速度 更 快 ， 等 等 。 

在 这 章 中 ， 我 们 提供 了 算术 电路 的 设计 实例 。 特 别 地 ， 我 们 将 讨论 通常 称 为 快速 加 法 器 
的 设计 ， 也 展示 减法 器、2 的 补 码 加 法 器 、 算 术 逻 辑 单元 (ALU)、 乘 法 器 和 除法 器 的 设计 。 
这 章 同 样 也 会 展示 IEEE FA (FP) 数 标准 和 算术 。 


自 顶 向 下 的 设计 方法 


和 目 顶 向 下 的 方法 ， 也 叫 分 层 的 方法 ， 是 指 一 种 设计 流程 ， 如 包含 父 结 点 和 叶 结 点 的 树 结 
构 。 在 根 结 点 的 大 型 设计 问题 可 以 依次 在 叶 结 点 划分 为 较 小 的 设计 问题 。 根 结 点 的 问题 第 一 
次 将 被 分 为 较 小 设计 问题 为 子 结 点 。 如 果 需 要 ， 在 每 一 个 子 结 点 〈 现 在 为 父 结 点 ) 上 的 较 小 
设计 问题 又 可 以 分 为 更 小 的 设计 问题 。 这 个 处 理 过 程 一 直 持 续 直到 每 一 个 在 叶 结 点 的 设计 问 
题 足够 小 并 且 拥 有 更 少 的 输入 。 

对 于 叶 结 点 上 的 每 一 个 设计 问题 ， 第 2 章 中 的 技术 都 可 以 用 来 设计 电路 。 这 些 电 路 随后 
将 连续 组 合成 目标 大 型 组 合 电 路 。 设 计 可 能 需要 一 个 或 多 个 较 小 电路 的 副本 。 最 终 电 路 必须 
无 任何 扇 人 和 扇 出 问题 。 

在 设计 流程 中 的 每 一 步 ， 有 很 多 种 方法 和 算法 都 会 进行 检查 ， 对 如 电路 延迟 和 逻 辑 门 数 
量 进行 权衡 分 析 ， 然 后 选 出 最 佳 的 解决 方案 来 满足 整个 设计 要 求 。 通 常 ， 一 位 并 行 和 一 位 串 
行 设 计 分 区 技术 ( 稍 后 定义 ) 从 根 结 点 开始 被 用 于 每 一 个 父 结 点 。 

当 设 计 问 题 被 分 成 较 小 的 设计 问题 时 ,分 区 被 称 为 位 并 行 的 。 例 如 ， 生 成 n 位 与 或 者 n 
位 和 的 组 合 AND/ADD 电路 模块 的 设计 可 以 视 为 三 个 分 开 的 设计 问题 : n 位 的 位 与 逻辑 、n 
MANIA A n 2-1 的 多 路 选择 器 (MUX), “n = 8 时 如 图 3-1 所 示 。MUX 选择 位 与 逻 
辑 的 结果 或 者 加 法 器 的 和 值 来 作为 输出 。 虽 然 位 与 逻辑 、 加 法 器 和 MUX 都 只 是 实现 单一 的 
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功能 ,但 是 对 于 第 2 章 所 学 的 方法 来 说 ， 还 是 很 大 型 的 设计 问题 。 这 三 个 模块 都 必须 再 分 为 
更 小 的 设计 问题 。 





回 父 结 点 叶 结 点 
3-1 自 项 向 下 位 并 行 和 位 串 行 设计 分 区 实例 


位 串 行 方法 用 于 将 设计 问题 分 成 有 更 少 输入 的 较 小 问题 。 例 如 ，n 位 输入 的 大 型 电路 设 
计 问 题 可 以 分 为 称 为 片 的 上 位 输入 设计 问题 ， 这 里 大 (最 好 ) 能 整除 n。 每 片 都 可 以 执行 一 个 
或 者 多 个 函数 操作 ， 但 只 能 对 较 少 的 输入 位 进行 操作 。 例 如 ， 一 个 8 位 加 法 器 可 以 用 8 个 全 
加 器 (FA) 进行 设计 ; 8 位 2-1 MUX 可 以 用 8 个 1 位 2-1 MUX 进行 设计 。 在 图 中 ， 每 个 结 
点 旁边 的 数字 表示 了 片 的 数量 。 在 位 片 不 会 违反 所 用 人 逻 辑 门 的 悄 人 户 出 限制 时 ， 和 常数 可 
以 作为 一 个 选择 。 

在 用 位 串 行 方法 设计 8 位 AND/ADD 模块 时 ， 我 们 可 以 使 用 8 片 1 fiz AND/ADD 片 或 
者 4 片 2 位 AND/ADD 片 来 进行 设计 ， 如 图 3-2 所 示 。 通 常 n 位 模块 可 以 用 nn 个 1 位 、n/2 
个 2 位 、n/4 个 4 位 等 来 设计 。 每 片 需要 输出 附加 信号 一 一 例如 ， 当 选择 加 法 函数 时 ， 连 接 
片 所 需要 的 进位 输出 位 。 为 了 保证 最 小 传输 延迟 ， 位 串 行 可 以 被 用 真 值 表 和 其 他 设计 方式 化 


简 成 SOP 或 者 POS 表达 式 进 行 模 块 化 。 
AND/ADD 






位 串 行 分 区 





a) 1 位 芯片 b) 2 位 芯 


回 父 结 点 Omar 
图 3-2 自 顶 向 下 ， 位 串 行 设计 分 区 实例 : a) 8 个 1 位 芯片 ; b) 4 个 2 位 芯片 


使 用 位 并 行 还 是 位 串 行 方法 ， 在 每 一 步 的 使 用 中 都 会 对 结果 电路 的 最 大 传输 延迟 和 所 需 
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逻辑 门 数 目 造成 影响 。 这 一 章 展 示 了 一 些 常见 的 大 型 组 合 电路 。 


3.2 算术 函数 


加 法 、 减 法 、 乘 法 和 除法 是 4 种 基本 算术 函数 。 更 多 复杂 的 函数 ， 例 如 求 平方 根 、 指 
数 和 正弦 值 等 ， 这 些 对 浮 点 (FP) 数 操作 的 函数 都 会 用 到 基本 的 4 个 函数 来 产生 输出 。 随 
着 这 些 年 集成 芯片 (IC) 中 三 极 管 的 数量 不 断 增 加 ， 越 来 越 多 的 算术 函数 可 以 在 硬件 上 实 
现 。 例 如 ， 早 期 的 微 处 理 器 只 能 在 硬件 上 实现 加 法 和 减法 功能 ， 其 他 的 功能 只 能 在 软件 上 实 
现 。 现 在 的 许多 计算 器 还 是 有 一 小 部 分 功能 在 硬件 上 实现 而 大 部 分 在 软件 上 实现 。 现 代 微 处 
理 器 通常 包括 叫 作 整数 单元 (IU) 的 整数 算术 电路 和 浮 点 单元 (FPU)。 通 常 ， 一 个 现代 微 处 
ies ike IU 和 FPU， 也 包括 在 第 1 章 中 讨论 的 整数 和 浮 点 数 单 指令 多 数据 流 (SIMD) 
单元 。 


3.3 ”加 法 器 


n 位 整数 加 法 右 输 入 两 个 n 位 数值 和 一 个 可 选 的 输入 进位 (cin) 来 产生 一 个 n 位 的 和 及 
最 后 进位 输出 (com)。 如 图 3-3 所 示 ， 从 右 (例如 最 


进位 04 1414 2—— cin=0 
低 有 效 位 ) 开始 ， 两 位 和 先前 的 进位 相 加 产生 一 个 和 oo | 
及 一 个 进位 (0 或 1) 来 进行 下 两 位 相 加 。 在 图 中 ， sk 
初始 的 cin 假设 为 0。 算 法 重复 直到 最 后 两 位 相 加 并 产 。 。_。 1110 
生 最 后 的 和 及 最 后 的 进位 输出 Coun 停止 。 3-3 4 位 二 进 制 加 法 图 


在 图 中 ， 最 先 的 两 位 (都 为 1) 和 cin = 0 相 加 得 
到 0 且 进 位 为 1。 下 一 个 两 位 ， 也 都 为 1， 且 先前 进 








pel CR vcs soi Ea Tees 
位 为 1， 相 加 得 到 和 及 进位 都 为 1。 其 他 位 也 进行 类 a ol 
似 的 加 法 操作 。 这 个 简单 的 加 法 算法 可 以 看 成 是 多 个 Ea = + ot 


1 位 加 法 步骤 ， 每 一 个 都 是 一 个 全 加 器 FA， 如 图 3-4 | Wg 
中 第 ;i 步 所 示 。 在 算法 的 每 个 步 又 中 ， 两 个 1 位 输入 ”。 BEARERS Seem 
a 和 bi 和 先前 进位 ci- 相 加 产生 和 s 和 下 一 个 进位 cio HF n 位 数 ， 这 个 过 程 需要 重复 次 


及 i=0， bs PAR g 和 C-1 = Cin, Cout = Cn-10 


3.3.1 进位 传输 加 法 器 


在 图 3-4 中 实现 简单 加 法 算法 的 n 位 加 法 器 使 用 nn 个 FA 片 串联 而 成 的 ， 如 图 3-5 所 示 。 
从 最 低 有 效 位 进位 开始 ， 进 位 co 到 c -| 在 每 一 步 中 产生 一 个 ， 类 似 于 手工 加 法 运算 。 这 种 
加 法 器 又 叫 进位 传输 加 法 器 ( CPA)， 因 为 进位 是 从 一 个 FA 片 到 下 一 个 FA 片 一 个 一 个 产生 
的 。 当 进位 在 电路 中 波纹 传输 ， 就 像 在 进位 链 中 进位 反馈 给 下 一 个 FA 片 时 ， 这 种 加 法 器 叫 
行 波 进位 加 法 器 (RCA). 
进位 传输 加 法 器 是 加 法 器 中 最 简单 的 电路 ， 但 有 正比 于 进位 数量 的 最 长 传输 延迟 。 每 一 
个 进位 信号 都 依赖 于 先前 的 进位 信号 ; ci 依赖 于 co, co 依赖 于 ci 等 ( 原 书 有 误 一 一 译 者 注 )。 
公式 (3-1) 用 于 估计 位 CPA 的 传输 延迟 ，ACPA (n) RIR n 位 CPA 的 传输 延迟 ，AEFAc 
和 A FAs 分 别 表示 FA 中 进位 及 和 的 传输 延迟 。 
ACPA(n) =(n-1) * AFAc + AFAs (3-1) 
ASK (3-2) 表示 在 与 非 门 延迟 ANAND = 0. Ins 和 如 第 2 章 公 式 (2-8) SOP 表达 式 中 ， 
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FA 的 进位 及 和 延迟 分 别 为 AFAc = 0.2ns 及 AFAs = 0.3ns 的 nn 位 CPA 传输 延迟 的 计算 过 
程 。 当 zz=8 时 ，ACPA(8) = 1.7ns。 
ACPA(n) =(n—-1)(0.2ns) +0.3ns = (0. 2n +0. 1 )ns (3-2) 


A=an-1...a1a0 B = bn-1...61b0 


n 位 无 符号 加 法 器 
S=sn-1...s1s0 


a ) n 位 加 法 器 结构 图 


c(n-1) c(-1) 








an-1 bn-1 al b1 a0 bO c-1 
cn-1 
sn-1 
b ) n 位 CPA 
图 3-5 nn 位 加 法 器 : a) 框图 ; b) n 位 CPA 


3.3.2 SETHE MMe 
当 n 很 大 时 ，CPA 的 传输 延迟 可 以 变 得 过 大 。 电 路 会 产生 一 个 非常 长 的 进位 产生 链 。 
然而 ， 我 们 也 可 以 用 更 多 的 独立 逻辑 门 来 在 更 少 的 时 间 内 并 行 产 生 进 位 。 为 了 说 明 这 点 ， 我 
们 将 定义 两 个 变量 传输 (p) 和 产生 (g)， 如 下 所 示 ， 其 中 i 为 数位 位 置 , i = 0, 1 2,…,m -1。 
pi =4;®b; 
gi =a;b; 
注意 到 所 有 的 p 和 g 位 都 分 别 可 以 并 行 地 使 用 n 个 异 或 门 和 个 与 门 同时 生成 。 由 公式 
(2-9 )( 第 2 章 ) 得 : 


(3-3 ) 


s; = ui 中 0 中 ci 


c; = (a;,@b; )c;_, +a;b; ee 
HEA (3-3) 代入 公式 (3-4) 得 : 
s; =p;De;_, (3-5) 
6, = 8; Dr.n 


AK (3-6) 列 出 了 前 三 个 带 有 p、g 变量 及 前 一 个 进位 的 进位 表达 式 。 表 达 式 清楚 展示 
了 进位 的 递归 依赖 性 。 
co =go+poc-i (WATZE c) 
cl =81 +pico (依赖 于 进位 co) (3-6 ) 
Cy = 82 + P20: (依赖 于 进位 ci ) 
如 果 每 一 个 依次 的 进位 可 以 代入 后 来 的 进位 表达 式 中 ， 那 么 就 可 以 并 行 地 产生 cl co 等 
进位 。 进 位 cl 和 co 的 产生 过 程 展示 如 下 : 
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Co =8o 十 Poc_i 依赖 于 进位 c _， 
Cı =81 二 Pico 
=g, + pi (8 + Poci) 代入 en 表达 式 
=81 + Pigo + PiPpoc-i 现在 ci 依赖 于 进位 c_ (3-7) 


C2 =82 + Pry 
=82 + P(g, + Pigo +Ppipoc-) 代入 cl 表达 式 
= 82 + p281 + PoPiBo + pzpipoc -1 现在 cs 也 依赖 于 进位 c 
ci 和 cs 最 后 的 表达 式 都 依赖 于 c-1!， 这 样 它 们 就 可 以 并 行 地 产生 了 。 然 而 相 比 于 公 
A (3-6 )， 每 一 个 扩展 表达 式 都 需要 更 多 的 硬件 去 实现 ， 包 括 人 逻辑 门 、 更 大 的 悄 入 和 户 出 
需求 。 
p 和 gg 位 信号 是 用 于 定义 快速 在 大 量 输 入 中 计算 进位 的 模式 。 图 3-6 中 的 例子 展示 了 用 
3 位 输入 4 = aaa 和 B= bzbibo 的 计算 过 程 。 在 实例 att, P2~ Pi 和 po 都 为 1; 这样 ， 进 位 
输入 为 1(c- = 1) 将 传输 输出 为 cx = 1， 因 为 在 公式 (3-7 ) 中 pppoe- = 1。 在 实例 b 中 ， 
p=1, pi=1 有 是 go= 1; 这 样 ， 进 位 输入 为 0 (例如 ao = 1、bo = 1， 这 样 go。= 1 ) 则 产生 输 
出 cz = 1， 因 为 papipo = 1。 其 他 的 实例 展示 了 其 他 情况 ,使 得 c; 为 1。 在 实例 c 中 ,pzg1=1， 
所 以 cz = 1, 在 实例 d 中 ， Z2=1, 所 以 cz = 1。 


进位 14 14 ss 一 一 进位 输入 =1 1 4 14 2 一 一 进位 输入 =0 
A: 1|1|o A: lali 
B: 0 LO 上 1 B: 0 1 
一 一 一 一 -一 十 
$000 S 0 0 0 
C21 sa a= E 
(a)c2=1 AA p2p1poc-1 =1 (b) c2=1 因为 p2p1g0=1 
进位 14 04 sa- 一 一 进位 输入 =0 0 2 一 一 ~ 进位 输入 =0 
A: 1| 1 A ialo 
B: 0 51 B: 1 0651 
一 一 一 一 一 一 SS 
%0- 6 1 So i 1 
c2=1、 >- c2=1~+__— 
(Cc) c2= 1 因为 p2g1=1 (中 cc2 三 1 因为 g2=1 


3-6 ”先行 进位 加 法 器 概念 的 实例 展示 


当 进 位 求 出 来 以 后 ， 和 值 so。、s! 和 也 可 以 并 行 地 生成 ， 由 如 下 等 式 确定 。 
So =po Dc -1 
sı =p, Oey 
s: =p,Oe, 

图 3-7 展示 了 3 位 先行 进位 (CLA) DNASE. pM eg 位 用 三 个 异 或 门 和 三 个 与 门 在 
0.3ns 内 并 行 生 成 ， 这 里 最 大 值 AXOR = 0.3ns、AAND = 0.2ns， 假 设 与 非 门 有 0.1ns 延迟 。 
这 个 电路 也 称 为 PG 单元 (PGU), p 和 8g 位 和 最 初 进位 输入 c- 被 送 入 进位 生成 单元 (CGU). 
CGU 中 的 三 个 进位 电路 是 独立 的 且 可 以 在 0.2ns 内 并 行 产 生 所 有 的 进位 coy ci 和 cr, 假设 电 
路 用 与 非 门 实现 。 使 用 男 一 套 异 或 门 ， 最 后 和 值 也 可 以 用 p 和 进位 为 输入 并 行 生 成 。 这 些 异 
或 门 可 以 组 合成 一 个 称 为 和 单元 (SU) 的 模块 。 


AAD OB: AB Kt if 


b2 a2 b1 al b0 a0 


PG 单 元 


g2 p2 g1 p1 gO po 







We nim 
进位 生成 单元 
(CGU) 
进位 输出 
求 和 单元 (SU) 
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3-7 并行 生成 co, ci 和 cz 进位 的 3 位 CLA 


有 进位 ce ~ cr 的 8 位 CLA 仍然 比较 小 ， 设 计 不 会 违反 逻辑 门扇 人 和 扇 出 的 限制 。 在 这 
个 例子 中 ， 进 位 c; 的 电路 用 局 人 三 i+ 2 的 逻辑 门 实现 。CLA (8) 的 延迟 为 0.8ns， 如 公子 
(3-8) 所 示 ， 假 设 与 非 门 有 0.1ns 延迟 。CLA( 8 ) HE CPA( 8 ) 运行 速度 要 快 两 倍 以 上 ; 然而 ， 
需要 更 多 的 硬件 去 实现 其 电路 。 
ACLA(8) =APGU + ACGU + ASU 
=0. 3ns +0. 2ns +0. 3ns (3-8 ) 
=0. 8ns 
另 一 种 CLA 可 以 用 与 门 实现 g 位 、 用 或 门 实现 p 位 及 用 FA 输出 和 值 [1]。 
1. 大 型 CLA 加 法 器 
对 于 很 大 的 nn 值 (例如 n> 8 )， 将 进位 表达 式 连续 代 和 人 后 边 的 进位 表达 式 中 ， 如 公式 
(3-7) 中 的 进位 c 和 cz， 最 后 将 产生 一 个 非常 长 的 进位 表达 式 ， 这 样 对 应 的 电路 会 需要 很 
多 有 大 量 悄 入 数量 的 逻辑 门 。 此 外 ,一些 逻 辑 门 ， 比 如 产生 p 信号 的 异 或 门 需要 大 量 的 肩 出 
值 ， 这 样 p 才能 作为 多 个 CGU 中 的 进位 生成 电路 的 输入 去 生成 其 他 的 进位 信号 ，SU 中 的 和 
值 电路 也 是 如 此 。 这 样 ， 当 nn 是 一 个 非常 大 的 数 (例如 32 位 或 者 64 位 ) 时 ， 需 要 另 一 种 方 
法 来 限制 每 一 个 电路 模块 的 局 人 和 局 出 需求 。 
在 这 个 实例 中 ， 进 位 表达 式 被 分 成 不 同 的 集合 以 便 使 在 对 应 电路 中 的 逻辑 门 的 最 大 扇 人 
和 忆 出 可 以 控制 在 一 个 可 接受 的 范围 内 。 简 单 举例 ， 当 n = 8 时 的 情况 如 下 。CLA (8) 的 进 
位 表达 式 分 成 三 个 集合 ， 如 公式 (3-9) 所 示 。 每 一 个 集合 中 的 表达 式 都 有 少 于 三 个 逻辑 项 
和 少 于 三 个 的 变量 。 则 对 应 电路 的 扇 人 < 3 且 扇 出 和 2。 例 如 ， 集 合 1 中 的 c1/， 根 据 信号 po, 
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HPA ee Ka A = 3 AK = 2。 每 一 个 集合 中 的 进位 表达 式 都 是 数据 独立 的 ; 这 样 进 
位 可 以 在 输入 可 用 时 立即 生成 。 对 于 集合 1 中 的 表达 式 ，c-: 是 进位 输入 ; 在 集合 2 中 ， 进 
位 输入 为 cx; 在 集合 3 中 ， 进 位 输入 为 cs。 


集合 1 : 

Co = 80 十 Poc -1 (需要 c_| 作 为 进位 输入 ) 

Cı =81 +Pi8o + PiPoC -1 (需要 c_| 作 为 进位 输入 ) 

集合 2: 

Cz =83 +p3c2 (需要 c, 作为 进位 输入 ) (3-9 ) 
Cy =84 + P483 + P4P3©r (需要 c, 作为 进位 输入 ) 

集合 3: 

ce =86 +Pecs (需要 cs 作为 进位 输入 ) 


C7 =87 十 PDT86 十 P7TP655 (FE Cs 作为 进位 输入 ) 
在 进位 输入 信号 ci. oo 和 cs 中 ， 进 位 输入 ci 是 最 初 的 输入 值 ， 而 其 他 两 个 进位 输入 
必须 由 其 他 信号 生成 。 它 们 由 公式 (3-10 ) 决定 并 分 为 集合 4。 
Cy = (82 +p281 +P2P180) + (papiPo) ei 
( 3-10) 
cs = (85 +psg4 +PsP483) + (pspap3) C2 


使 
& * o =82 tP281 + P2Pi8o 
P * o =P2PiPo 
& * 1 =8s +Ps&4 + PsP483 
P * ı =PsP4P3 
因此 ， 集 合 4: 
=g *o +p *oc_, (需要 进位 输入 c_1) 


=$ +p FG 
=g*,+p*;(g*o+p*oCc_ı) 
=g*1+p*18g*o+p*1p*0oc_! (此 时 也 需要 进位 输入 c_1) 
考虑 到 当 cx 和 cs 表达 式 表 示 成 p* Al g* 信号 表达 的 形式 时 都 是 数据 独立 的 。p* 和 g* 
信号 也 是 数据 独立 的 ， 且 由 p 和 g 信 号 决定 。 也 就 是 说 ，cs 和 cs 最终 的 表达 式 也 和 集合 
1 ~ 集合 3 中 的 表达 式 类 似 ， 除 了 这 些 表达 式 要 求 以 p* 和 g* 信号 作为 输入 。p* 中 的 * 号 表 
示 比 特 组 中 的 进位 传播 。 类 似 地 ，g* 中 的 * 号 表示 比特 组 中 的 进位 生成 和 传播 。 当 p* = 
时 ， 意 味 着 1 作为 进位 进入 到 块 中 将 被 传播 为 生成 进位 的 1。 类 似 地 ， 当 g* = 1 时 ， 意 味 着 
在 块 中 生成 的 进位 1 将 被 传输 为 进位 输出 。 
集合 1 中 的 进位 依赖 于 进位 c-i 以 及 p 和 g 信 和 号; KH, 它们 可 以 在 p 和 8 信和 号 生成 之 
后 立即 并 行 地 生成 。 考 虑 到 因为 所 有 p* 和 g* 信号 都 可 以 在 同一 时 间 生 成 ， 和 当 co 和 cl 生 
成 时 ， 它 们 将 被 移动 到 集合 1 ~ 集合 3， 如 公式 〈3-11 ) Arm: 


集合 1 : 
Co = Bo 十 Poc-i (需要 进位 输入 c_1) 
cĉ = 81 + Pigo +Ppoc- (需要 进位 输入 c_,) 
8 *o= 82 t P281 + PrPi8o 
P * o = P2PiPo 


集合 2: 
C3 = 83 + PacC2 (需要 c, 作为 进位 输入 ) 
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C4= 84 + Pags + PaPe (RE c 作为 进位 输入 ) 

&*1=8s + Ps&4 + PsP483 

P * | = PsPsP3 

"Cg = Bg + Pots (需要 cs 作为 进位 输入 ) (3-11) 
C7 = 87 + P186 + PrP6ls (需要 cs 作为 进位 输入 ) 

E *2=8gs + Psg +Ps +Ppigs (4n>8 时 需要 ;此 时 n=8,gs =0,p, = 0) 

P * 2 = PsP7P¢6 (4n>8 时 需要 ;此 时 n= 8,ps =0) 

8 位 CLA 的 详细 电路 图 如 图 3-8 所 示 。 所 有 8 个 进位 co ~ co 都 在 三 步 中 产生 ， 如 下 : 

1 ) 集合 1 中 的 进位 co 和 cl 和 所 有 在 集合 1、2 和 3 中 的 p* 和 g* 信号 首先 生成 ; 

2) 下 一 步 ， 生 成 集合 4 中 的 进位 cx 和 cs; 

3) 最 后 ， 生 成 集合 2 和 集合 3 中 的 cg Ca, Co 和 C70 


集合 3 


a7..a0 b7..b0 


和 值 单元 ( SU ) 





s7..s0 


3-8 FA BCGU 实现 的 8 位 CLA，ps 和 gs 设 为 0 


实现 集合 1 ~ 集合 3 中 每 一 个 表达 式 的 电路 都 称 为 块 进位 生成 单元 (BCGU)。 实 现 集 
合 4 中 表达 式 的 电路 依旧 为 CGU。 当 所 有 进位 都 生成 之 后 ，c-; ~ ce 和 po ~ pr 都 被 送 进 SU 
以 便 并 行 生 成 所 有 的 和 值 位 so ~ 570 

对 于 很 大 值 的 x( 例 如 n= 32 MA n= 64 ) 来 说 ,CLA(n) 电路 和 图 3-8 中 所 示 的 CLAC 8 ) 
电路 是 一 样 的 。 除 了 当 n 很 大 时 ， 进 位 必须 被 分 成 更 多 的 集合 以 避免 BCGU 或 者 CGU 的 局 
入 和 扇 出 问题 。 以 图 3-8 中 的 电路 设计 为 基础 ， 公 式 (3-12) 估算 了 CLA (n) 的 传输 延迟 ， 
假设 与 非 门 的 延迟 为 0.1ns。 

ACLA(n) =APGU + ABCGU + ACGU + ABCGU + ASU 


=0. 3ns +0. 2ns +0. 2ns +0. 2ns +0. 3ns (3-12) 
=]. 2ns , 


大 型 CLA 加 法 器 比 等 价 的 CPA 加 法 器 要 快 得 多 ， 但 是 需要 更 多 的 硬件 来 实现 。 或 者 ， 
我 们 可 以 设计 一 个 一 部 分 是 CLA 一 部 分 是 CPA 的 混合 加 法 器 。 混 合 加 法 器 比 CPA 要 快 ， 
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但 是 比 CLA 要 慢 。 例 如 ，16 位 的 混合 加 法 器 可 以 用 两 个 CLA〈8 ) 片 设计 ， 第 一 片 中 的 进 
位 cr 传送 到 第 二 片 中 。 这 个 16 位 混合 加 法 器 要 比 CPA (16) R, 但 是 要 比 CLA (16) È, 
并 且 需 要 的 硬件 比 CLA (16) 要 少 一 些 。 

2. HDL 模块 

例 3-1 ~ 例 3-6 展 示 了 用 一 个 PGU、 三 个 BCGU、 一 个 CGU 和 一 个 SU 设计 的 8 位 

CLA Verilog 描述 。 行 为 和 结构 模型 都 用 于 设计 加 法 器 。 

8 位 CLA 加 法 器 的 结构 化 描述 : 

“include "pg unit _8bits.v" 

“include "carry generate 8bits.v" 

“include "sum unit 8bits.v" 


module adder 8bits 


( 
input [7:0] a, b, 


input ci, 
output [7:0] a, 
output c6, c7 


l3 
wire [7:0] c, P; 93 
assign c6 = c[6]; 


assign c7 = c[7]; 


pg_unit_8bits pgul(a, b; p, 9); 

carry_generate_8bits oul (Db g; Ci, CT 

sum unit 8bits sul(p, {c[6:0], ci}, s); 

endmodule BS 


FA BCGU 和 CGU 实现 的 8 位 进位 生成 模块 的 结构 化 描述 : 


“include "block cla carry generate 3bits.v" 
“include "cla carry generate 2bits.v" 
module carry generate 8bits (p, g, ci, c); 
input [7:0] p, g; 

input ci; 

output [7:0] c; 

wire [2:0] ps, gs; 


block cla carry generate 2bits bccgl(p[2:0], 9g[2:0], ci, 
e{1<0]', gs[0], ps[0]); 


block_cla_carry_generate_ 2bits becg2(p[5:3], g[5:3], c[2], 
c[4:3], gs[1], ps[1]); 


block cla carry generate 2bits bccg3({1’'b0,p[7:6]}, 
{1’b0,g[7:6]}, c{5], c[7:6], gs[2], ps{2]); : 


cla carry generate 2bits cegliips{1:0], gs[1:0], ci, 
eR]; e(5]); 


endmodule & 


3 位 BCGU 的 行为 描述 : 

module block cla carry generate 2bits (p, g, ci, c, gs, ps); 
input [2:0] p, gi 

input ci; — 

output [1:0] c; 


output gs, ps; 
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assign [ol = g[0] | p[0] & ci; 

assign ctil = gli) | pi] & gito] | pii] & p[0] & ci; 

assign gs = g[2] | p[2] & g[1] | p[2] & p[i] & g[0]; 

assign ps = p[2] & p[1] & p[0]; 

endmodule * 


UEI 2 位 CGU 的 行为 描述 : 

module cla carry generate 2bits (ps, gs, ci, c2, c5); 

input [1:0] ps, gs; 

input ci; 

output ¢2, cS; 

assign c2 = gs[0] | ps[0] & ci; 

assign c5 = gs[1] | ps[1] & gs[0] | ps[1] & ps[0] & ci; 

endmodule ey 
Hee 8 位 PGU 的 行为 描述 : 

module pg unit 8bits (a, b, p, g); 

input [7:0] a, bs 

output [7:0] p, g; 

assign p = a ^ b; 

assign g =a & b; 

endmodule & 


n 位 SU 的 行为 描述 : 


module sum_unit 8bits (p, c, s); 

input [720] D; cz 

output [7:0] s; 

assign s = D Cs 

endmodule a 


3.4 Wie Bs 


减法 器 用 图 3-9 所 示 [2] 的 一 种 方法 生成 两 个 4 位 输入 XX 和 了 的 差 值 D。 在 方法 a 中 ， 
每 次 x;< yi AY, 如 果 xi;1> 0， 需 要 问 xi+1( 下 一 高 位 ) 借 1， 然 后 在 x; 上 加 2。 如 果 xi41=0， 
IRA K x> 0 时， 就 向 xi+2 借 1， 并 把 2 mE x Eo WR xO, 那么 就 向 x;:3 借 1， 
把 2 加 到 x;;，。 上， 等 等 。 这 个 过 程 递 归 一 直到 x; 宇 y;,， 且 4;=xi 一 yi 为 0 或 1。 在 图 中 ，xo= 
0 小 于 yo= 1; RH, 需要 从 xi 上 借 1。 然 而 ， 因 为 x1 = 0， 需要 从 x; 借 1。 剩 下 的 比特 位 也 
将 进行 相同 的 处 理 。 此 例 不 会 产生 借 位 输出 ， 因 为 X= 12 = (1100); 大 于 了 = 3 = (0011),， 这 
样 D= 12-3 =9=(1001)2. 


1 
0 Z 
x 1 x g £2 y 4 1 #2 £2 
-Y 0 0 1 1 Y o et ga d 
D 1 0 0 1 D 1 0 0 1 
比特 位 位 置 = 3 2 1 0 3 2 1 0 


a) b) 
3-9 无 符号 减法 过 程 : a) 借 位 方法 ; b) 抵 扣 法 
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在 方法 b 中 ， 每 一 次 x; < y; 时 ， 都 会 把 抵 扣 1 加 到 y+:1 (下 一 高 位 ) 上 ， 然 后 在 x; 上 加 
2 生成 di = xi 一 y 为 0 或 者 1。 在 例子 中 ,xo= 0 小 于 yo = 1; OH, BEY 上 加 上 1, 让 
yi =2 H2 IMF x E, 使 得 xo = 2。 IEF do = xo- yo A 1 (2-f=1)5 F—-#, x =0, 小 于 
y=2; 这 样 ， 再 次 需要 把 1 加 到 六 上， 使 其 为 1， 且 2 加 到 zx 上， 使 其 为 2。 结 果 为 di = 
2-2=0。 剩 下 的 比特 位 也 按照 相同 的 方法 最 终 得 到 刀 =9= (1001):。 

n 位 的 借 位 传播 减法 器 (BPS) 类 似 于 nn 位 的 CPA， 用 nn 个 1 位 减法 器 片 组 合 而 成 。 每 
一 片 都 从 了 输入 一 位 数 ， 从 了 输入 一 位 数 ， 然 后 一 个 借 位 / 抵 扣 位 (0 或 1) 和 输出 一 位 差 
值 和 下 一 借 位 / 抵 扣 位 ， 如 下 第 i 位 所 示 。n 位 BSP 如 图 3-10 所 示 。 


Le La oe 
ETT yi sxi aa 1 
di wa ee 0 


对 于 第 ;i 位 的 依 位 和 抵 扣 位 加 法 器 算法 将 在 后 续 讨 论 。 除 了 圆 括号 用 于 强制 优先 ， 所 
以 展示 了 方法 a 的 借 位 法 和 方法 b 的 抵 扣 法 概念 ， 差 值 为 di 的 算式 在 两 种 算法 中 都 是 一 
样 的 。 


减法 算法 
方法 a: 借 位 算法 ( 圆 插 号 展示 如 何 进 行 借 位 ) 
if x[i] > y[i] 
dļ{i] = (x[i] — b[i-1]) — ylil; // borrow made to previous step is subtracted 
//from x 
b[i] = 0; 
else if x[i] < y[i] 


d[i] = (x[i] +2- b[i-1]) — yli]; //x borrows a 2 and borrow made to previous 
//step is subtracted from x 

biil] = 1: //indicates the borrow from the next x bit 
else if b[i—1] == 0 //x[i] = y[i] 

d[i] = x[i] — y[i]; 

b[i] = 0; 
else //b[i—1] = 1 and x[i] = y[i] 

d[i] = (x[i] + 2 — b[i-1)) — y[il; // x borrows a 2 and borrow made to 

//previous step is subtracted from x 


b[i] = 1; // indicates the borrow from the next x bit 
方法 b: AA ( 圆 插 号 展示 如 何 进行 抵 扣 ) 
If x[i] > y[i] 
ali] = x[i] — (b[i-1] + y[i]); //the credit from the previous step is 
. //added to y 
b[i] =0; 


else if x[i] < y[i] 
d[i] = (x[i] + 2) — (b[i-1] + y[i]);  //x borrows a 2 and the credit from the 
//previous step is added to y | 
bli] = 1; //indicates a credit given to the next y bit 
else if b[i-1] == 0 //x[i] = y[i] 
d{i] = x[i] - yli]; 
b[i] = 0; 
else //b[i—1] = 1 and x[i] = y[i] 
d[i] = (x[i] + 2) — (b[i-1] + y[i]);  // x borrows a 2 and the credit from the 
//previous step is added to y 
bli] = 1; // indicates a credit given to the next y bit 


AAG EB: AB Rit 83 


X =Xn-1X1X0 Y =Yn-1Y1Y0 


借 位 输出 | 位 无 符号 减法 器 借 位 输入 =b ; 


D 一 ds dl do 
a) 减法 器 框图 
Xn-1 yn-1 X1 Yı Xo Yo bj 
bn 1 3 
b b 
oe r -d 


b) 减法 器 详细 框图 
3-10 n 位 BPS: a) 减法 器 框图 ; b) 详细 减法 器 框图 


K 3-1 MAA (3-13) 展示 了 1 位 减法 器 片 的 真 值 表 和 逻辑 表达 式 。 真 值 表 简单 地 决定 
了 之 前 讨论 两 种 减法 算法 中 的 一 种 。 考 虑 到 差 值 和 借 位 ( 抵 扣 位 ) RERS FA 的 和 值 和 进 
位 表达 式 相 似 。 或 者 ， 先 行 借 位 减法 器 (BLA) 可 以 用 CLA 的 方法 设计 。 
d; =x, Oy; 0b; -; 
b; = (x, @y,)5;_, +x yi 


3.5 2 的 补 码 加 法 /减法 天 


对 于 带 符号 的 算术 运算 ， 它 们 的 数值 可 以 表示 成 正 数 或 者 负数 的 2 的 补 码 。 两 个 位 数 
F (A) > AI (B) > 的 减法 可 以 表示 成 (4) > 和 (- B) > 的 加 法 ， 如 下 所 示 ， 这 里 (3) 1 
示 简 单 地 对 B 的 每 一 位 进行 取 反 ， 即 8 的 反 码 。 
2 的 补 码 减 法 算法 
L) (Sz = (A)as — (B)z 
= C)x+[-(B)s] NARR “RE” MFE “R” 
= (A)zs + [Bie + 1 
= [(A)as + (B)is + Los 
2) 丢弃 进位 输出 位 
图 3-11 展示 了 2 的 补 码 减法 算法 过 程 。“+ 1” 用 一 位 进位 输入 来 实现 。 


( 3-13) 


2 一 一 ~ 进位 输入 =1 
(Ae 1 1 1 6 (A)2s 1 1 1 =0 
— (B)2s 100 1 ES) + (Bs 0 1 1 0 
Sas 0 1 6 1 (S25 0 1 0 1 
进位 输出 =1< 一 一 
忽略 


3-11 2 的 补 码 减 法 过 程 
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表 3-1 1 位 减法 器 (Sub) AER 


x a Se Ge ee ee es d 
0 a S ae eee eee ee: 0 
0 Se ee Se See Ee Dee 
0 re ee Ce ae De Te I 
0 ME TE eS SN 0 
I | 
ee ee eae es Pe ee 0 
I Ot E 0 
l | ! 


KWM, FIREA T nM 2 的 补 码 加 法 。 在 这 个 例子 中 ,输入 B 没 有 变化 且 进 位 
输入 设 为 0。 
2 的 补 码 加 法 算法 
1) (S)as = (A)zs + (B)zs 
= [(4)zs + (B)as + 0]> 

2) 丢弃 进位 输出 位 

2 的 补 码 算术 产生 2 位 2 的 补 码 输出 ， 进 位 输出 被 忽略 且 不 被 计算 到 最 后 结果 中 。 然 
而 ， 结 果 还 是 有 可 能 会 溢出 。 例 如 ， 考 虑 用 1 减 最 小 的 nn 位 二 进 制 补 码 负 数 ， 或 者 1 加 上 最 
大 的 nn 位 2 的 补 码 正 数 。 在 两 个 例子 中 ， 结果 差 值 和 和 值 都 会 超过 n 位 负数 和 n 位 正 数 2 的 
补 码 表示 的 范围 。 

当 4 和 8B 都 是 2 的 补 码 正 数 时 ， 它 们 的 符号 位 为 0。 在 这 个 例子 中 , 为 了 保证 4+B 
不 会 溢出 ， 加 到 符号 位 的 进位 必须 为 0。 这 样 会 产生 0 作为 进位 输出 ; 不 然 就 会 产生 溢出 。 
例如 ， 考 虑 图 3-12 中 的 例子 a 和 c。 在 例子 a 中 , A= (0111)zs = 7 且 B= (0001)ss= 1 都 是 
2 的 补 码 正 数 ， 此 外 ，4 是 最 大 的 4 位 正 数 。 如 图 中 所 示 ， 当 B= 1 与 4 = 7 相 加 ， 结 果 为 
(1000)zs = 一 8， 一 个 负数 ， 这 就 意味 着 溢出 。 在 这 个 例子 中 ，c3 = 1， 且 当 其 与 都 为 0 的 符号 
位 相 加 的 时 候 ， 这 就 让 符号 位 之 和 变 为 1( 负 数 ) H c4=0 关 cs = 1。 要 使 溢出 情况 不 会 出 现 ， 
当 两 个 2 的 补 码 正 数 相 加 时 ，c3 和 cy 都 必须 为 0。 

在 例子 c 中 ， 当 两 个 负数 4=-1 和 B=--2 相 加 ， 符 号 位 都 为 1， 如果 c3=1 产 生 c4=1 
则 4 + B 不 会 溢出 。 否 则 ， 结 果 就 会 溢出 ， 生 成 一 个 正 数 为 结果 。 从 例子 a 和 例子 c 中 得 到 
的 结论 是 当 cs = cs 时 ,结果 不 会 溢出 ,不 论 4 和 B 是 正 数 还 是 负数 的 2 的 补 码 形式 。 

例子 b 和 d 展示 了 减法 。 在 这 个 例子 中 ， 等 式 4 -B 就 是 在 计算 4+(B)is+ 1。 在 例子 b 
中 ， 当 B= 1 GEM) 去 减 4=-8 时 (最 小 的 4 位 2 的 补 码 负数 )，cs 为 0， 加 到 符号 位 (都 

LDL 为 1) 上 时 , 产生 7 为 结果 (不 正确 的 结果 )。 注 意 ，c4 = 1 关 c3 = 0。 在 例子 d 中 , A=- 
和 B= 一 2 都 为 2 的 补 码 负 数 ， 且 当 相 减 时 ， 结 果 不 会 溢出 。 注 意 到 在 这 个 例子 中 ,c3= 1 
5 c= 1 (c3 = C4 ) 值 相等 。 两 个 正 数 相 减 也 不 会 产生 溢出 的 情况 。 

K 3-2 为 n 位 2 的 补 码 加 法 器 /减法 器 溢出 信号 ovf 的 真 值 表 。 进 位 cv, - :与 符号 位 相 加 

产生 最 终 进位 Ch-1. ATK (3-14) 定义 了 溢出 信号 : 
ouf =c, ic -2 (3-14 ) 

图 3-13 展示 了 两 个 框图 : a) 2 的 补 码 加 法 器 和 b) 2 的 补 码 加 法 器 。 两 个 框图 只 有 输 
À (B)os 和 处 理 进位 不 相同 。 在 图 3-13a 中 ,输入 B 与 4 相 加 ， 并 没有 改变 表示 形式 。 在 图 
3-13b 中 ,输入 B 在 与 4 相 加 之 前 ， 经 过 了 按 位 非 运算 。 这 样 ， 我 们 可 以 只 有 一 个 加 法 器 模 
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块 来 组 合 两 个 电路 框图 实现 一 个 加 法 器 /减法 器 模块 。 可 以 用 反 相 器 模块 来 转换 结果 ， 当 加 
法 时 输出 也 ， 当 减法 时 输出 8 的 非 ， 当 运算 减法 时 ，E = e, -1…eieo 等 于 B 的 反 人 码 或 者 表示 
为 (B)is。 模 式 信号 m 用 来 表示 运算 模式 ， 当 m = 0 (进位 输入 为 0) 时， 运行 加 法 ， 当 m= 1 
(进位 输入 为 1 )， 运 行 减法 。 


C3=1 c_1=0 作 为 进位 输入 





C4=0 作 为 进位 输出 ( 不 是 溢出 位 ) C4=1 作 为 进位 输出 ( 不 是 溢出 位 ) 
a) 求 和 ， 洲 出 cc。 b) 求 差 ， 浇 出 cc。 





C4=1 作 为 进位 输出 ( 不 是 溢出 位 ) 


C4=1 作 为 进位 输出 ( 不 是 溢出 位 ) 
c) 求 和 ， 未 滋 出 cs = cs d) RŽ, imiic,+c, ( 原 书 有 误 一 一 译 者 注 ) 


3-12 2 的 补 码 运算 实例 


表 3-2 ”运算 溢出 信号 的 真 值 表 


i ee 

Coa OO 

es 3 

ee | 0 
A = an_1..al1a0 B=b,_}...b,Dp 






A = an-1 ey ao 





a) 2 的 补 码 加 法 器 b ) 2 的 补 码 减法 器 
3-13 2 的 补 码 加 法 器 和 减法 器 框图 : a) 加 法 器 框图 ; b) 包含 加 法 器 的 减法 器 框图 


86 


RIF 


# 3-3 为 一 位 反 相 器 片 的 真 值 表 。 最 后 组 合 设计 如 图 3-14 所 示 ， 信 和 号 m 也 被 用 于 最 初 
的 进位 输入 值 。 注 意 到 有 信号 m 的 模块 与 进位 输入 连接 不 能 用 于 这 几 位 串 行 的 大 型 加 法 器 / 


减法 器 电路 。 如 果 需 要 设计 位 串 行 电路 ， 必 须 用 分 开 的 进位 输入 作为 输入 。 


Add 
Add 
Subtract 
Subtract 


表 3-3 1 位 反 相 器 真 值 表 





ovf 
3-14 2 的 补 码 加 法 器 /减法 器 数据 通路 


3.6 ”算术 逻辑 单元 
ALU 包含 在 所 有 的 处 理 器 中 ， 且 不 仅 可 以 进行 整数 运算 ， 还 可 以 进行 位 逻辑 函数 运算 ， 
例如 按 位 与 、 按 位 或 。ALU 可 以 用 在 整数 运算 和 逻辑 指令 的 执行 中 。 
ee 设计 一 个 位、 包含 7 种 函数 的 ALU， 使 其 可 以 完成 加 法 、 减 法 、 增 一 、 减 
一 和 按 位 与 、 按 位 或 和 按 位 非 运算 。3 ARRA F=f fo 用 于 选择 ALU 操作 ， 如 表 3-4 所 示 。 
在 运行 算术 操作 (F=0, 1, 233) 时 ，ALU 也 可 以 输出 溢出 信号 ovf. F=7 AW FIXME 


计 中 ， 当 选择 操作 时 , ALU 可 以 运行 一 个 未 知 操作 。 稍 后 将 讨论 详细 的 位 并 行 和 位 串 行 设计 。 


NS 


tet OIOIOIOO 


R 3-4 ALU BW F= hhh 列表 


x+ 


th 能 
加 法 
减法 
增 一 
减 一 
按 位 与 
按 位 或 
按 位 非 
未 定义 
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图 3-15 展示 了 ALU ABER., 4 FRE SPRAIN, MATA AAMBURAR 
值 R 都 表示 为 2 的 补 码 数 。 信 号 ovf 为 1 时 ， 表 示 运 A-。， 
算 有 溢出 。 下 一 节 将 详细 讨论 位 并 行 和 位 串 行 ALU "| 
的 设计 步 又 。 


3.6.1 设计 部 分 : 位 并 行 


当 n 很 大 时 ，ALU 会 被 考虑 为 大 型 组 合 电 路 。 
用 之 前 讨论 的 目 顶 回 下 位 并 行 设计 方法 ，ALU 的 功能 
首先 被 分 为 算术 和 逻辑 操作 。4 个 算术 操作 加 法 、 减 法 、 增 一 和 减 一 被 组 合成 ALU 数据 通 
路 中 的 一 个 算术 模块 ， 如 图 3-16 所 示 。 三 个 按 位 逻辑 操作 将 用 与 门 、 或 门 和 非 门 实现 。8 位 
4-1 的 MUX 选择 输出 WL X, YA Z PTE ALU 的 输出 。 


.130 B = br_1...bibo 


F = fafi fo 





ovf R = rn_1 E ro 


3-15 ALU 实例 


A 一 an-_1 .31a0 B 一 We wD, bo 






3 2 1 0 
多 路 选择 器 ( MUX ) 








R= fn-1 veel] ro 


ovf f2 f1 fo 


3-16 $i) 3-1 中 的 ALU 数据 通路 


在 ALU 数据 通路 中 ，A 和 B 输入 都 与 算术 模块 和 三 个 位 逻辑 模块 连接 。 这 些 模块 同时 
对 输入 A 和 B 进行 运算 并 产生 结果 ,但 是 只 有 一 个 被 选择 作为 ALU HRAM h AE, F 
指定 一 个 逻辑 操作 时 ， 算 术 模 块 仍然 可 以 根据 4 和 B 实时 的 值 产生 ov_flag 信号 值 。 然 而 ， 
在 某 些 实例 中 ,溢出 信和 号 可 以 被 屏蔽 上 且 不 被 ALU 当 作 有 效 值 输出 。 这 个 过 程 通过 屏蔽 模块 
完成 。 

数据 通路 还 包含 将 ALU 函数 码 翻译 成 ALU 数据 通路 中 的 中 间 信 号 so、s1、s2、m 和 
msk 的 映射 模块 。 当 所 有 模块 都 被 设计 和 连接 完成 之 后 ，ALU 的 设计 过 程 就 完成 了 。 

数据 通路 中 的 4-1 MUX 选择 由 算术 和 其 他 三 个 位 逻辑 模块 的 输出 中 的 一 个 。 当 五 指定 
一 个 逻辑 操作 (F = 4 到 6) 时 ， 屏蔽 模块 将 ovf 置 为 0 (无 效 ); BW, ovf 将 会 被 置 为 ov_ 
flag 的 值 ， 作 为 算术 模块 的 一 个 输出 。 

如 果 需 要 ， 自 顶 向 下 设计 方法 连续 地 应 用 到 所 有 数据 通路 上 的 大 型 模块 中 ， 分 为 更 小 的 
电路 模块 ， 直 到 最 底层 电路 模块 足够 小 且 只 需要 很 少 的 输入 实现 为 止 。 第 2 章 中 介绍 的 设计 
技术 被 用 于 设计 每 一 个 小 型 电路 模块 。 位 逻辑 模块 用 2 个 2 输入 的 与 门 、2 个 2 输入 的 或 门 
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Al n SETA. =P AE n LX = xxi…xo,，Y 了 =y-1…yo 和 Z=zs-1…z0o， 如 
图 所 示 ， 这 里 第 i 位 被 如 下 式 子 定 义 : 


x; = a;b; 
y; = a;+b; 
Z= a; 


作为 一 个 例子 ， 图 3-17 展示 了 4 位 按 位 与 逻辑 的 电路 图 。 当 4 = amaa = (1011), H B= 
b3b2b,b) = (1101) iT = N= (1001), FA AO Ge * bo =l]:l= 1,x,= ai ° bi =0°-1=0 等 。 
其 他 位 逻辑 模块 也 是 类 似 的 设计 。 


a3 b3 a2 b2 al 


a0 
A= 1011 
& B=1101 
X=1001 


A 3-17 4 WA 


小 型 多 路 选择 电路 的 设计 在 第 2 章 中 有 过 讨论 。ALU 需要 一 个 nn 位 4-1 的 多 路 选择 前 ， 
可 采用 如 下 方法 中 的 一 种 进行 设计 : 

eco 

2) Fin {i 2-1 MUX 设计 。 n i 2-1 MUX 用 nn 个 1 位 2-1 MUX 设计 ， 如 图 3-18 
所 示 。 





R 
a ) n 位 2-1 MUX 的 框图 





116 b ) n 位 2-1 MUX 的 详细 框图 
3-18 n 位 2-1MUX: a) 框图 ; bj) 1 位 2-1MUX 片 设计 的 框图 


选择 2 具有 优势 ， 其 可 以 扩展 到 设计 nn 位 k- 1 MUX 且 不 用 考虑 任何 遍 人 和 扇 出 问题 。 
表 3-5 展示 了 72 位 4-1 MUX 的 最 小 真 值 表 。 当 其 值 为 0 的 时 候 ， 信 和 号 s A WRX PH 
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—*, WR s 值 为 1， 选择 了 或 Z 中 的 一 个 。 男 一 方面 ， 当 其 值 为 0 时 ,信号 so 选择 下 或 
7 中 的 一 个 ， 为 1 时 ,选择 Z 或 了 中 的 一 个 。 这 样 ， 我 们 就 可 以 将 这 个 过 程 用 于 将 3 个 2-1 
MUX 设计 和 实现 4-1 MUX, StF nf, WE 3-19 所 示 。 例 如 ， 用 siso 表示 数值 为 2 的 2 位 
数 时 ( 即 s1 = 1A s0), 2-1 MUX 正确 地 选择 了 两 个 可 能 的 输入 候选 不 和 了 ， 且 最 底 端 的 
2-1 MUX 正确 地 选择 了 了 作为 最 后 的 输出 。 这 个 过 程 如 图 所 示 。 


表 3-5 n 位 4-1 MUX 的 化 简 真 值 表 


; ed y 

i ene TAD x 

3 Sn ae r 

S EE z 
Z Y X W 


s0=0 





R=Y 
3-19 FA nfà 2-1 MUX 设计 的 n 位 4-1 MUX 


通常 ， 先 前 的 方法 一 共 需 要 logk HM 2-1 MUX XM. AR (3-15) 用 于 估计 用 2-1 

MUX 设计 K-1 MUX 的 传输 延迟 。 
A; -1 mux = log,’ * A, _, mux (3-15 ) 

例如 ，8-1 MUX 需要 三 层 2-1 MUX, H 64-1 MUX 需要 6 层 2-1 MUX。 如 果 使 用 不 同 
的 MUX 组 合 ， 层 的 数量 和 总 计 延 迟 可 以 减少 。 例 如 ， 一 个 8-1 MUX 也 使 用 2-1 MUX 和 
4-1 MUX 的 组 合 进行 设计 。 在 这 个 例子 中 ， 一 个 4-1 MUX 可 以 设计 成 与 或 (SOP) 或 者 或 
与 (POS) 电路 以 便 使 传输 延迟 最 小 。 

算术 模块 的 输入 是 两 个 nn 位 2 的 补 码 数值 4 和 B 和 两 个 控制 信号 m 和 s，,，， 当 n= 8 时 如 
图 3-20 所 示 。 算 术 模 块 有 两 个 输出 : 一 个 nn 位 2 的 补 码 瑚 和 一 个 (高 电 平 ) 溢出 信号 ov 
flago X 3-6 列 出 了 m 和 s: 与 对 应 算术 模块 操作 模式 的 值 。 如 果 其 值 为 0， 信号 m 选择 加 法 
或 者 增 一 操作 ， 如 果 值 为 1， 选 择 减 法 或 者 减 一 操作 。s, 信号 控制 2-1 MUX， 当 进行 加 法 或 
者 减法 运算 时 ， 选 择 B， 当 进行 增 一 或 者 减 一 运算 时 ， 选 择 8 位 数值 (00000001)., 4 W tit 
出 时 ， 信 号 ov flag 置 为 有 效 。 

屏蔽 模块 的 真 值 表 和 电路 图 如 图 3-21 所 示 。 当 msk = 1 时 ,模块 输出 ovf = 0， 屏 蔽 掉 
从 算术 模块 中 产生 的 ov_flag 信号 ; 当 msk=0 时 ， 输 出 ovf= ov_flag。 


Se E Se FS ae 


A B 00000001 


2 的 补 码 加 法 器 /减法 器 ( 图 3-7 ) 





ov_flag W 
3-20 ”算术 模块 的 详细 框图 ; 结果 为 A+ B、A4-B、A+1 或 者 A-1 


R 3-6 ALU 算术 模块 操作 信号 值 


a el | i 
TE EE | 和 | man 
m | o | 1， ws 
TT A 





图 3-21 溢出 信号 屏 项 模块 : 对 应 真 值 表 及 电路 图 


K 3-7 展示 了 映射 模块 的 真 值 表 。 表 中 的 控制 信号 ， 除 了 msk， 可 以 视 为 无 关 项 (qd)。 
例如 ， 当 F 指 定 一 个 逻辑 操作 (HIF =4~ 6) 时 ， 算 术 模 块 的 输出 丈 不 会 被 MUX 选中 
作为 输出 。 然 而 ， 信 和 号 ov_flag 必须 屏蔽 ， 使 得 ALU 不 输出 ovf 信号 。 映 射 模块 的 真 值 表 如 
图 3-22 所 示 。 

此 外 ， 因 为 Ff= 7 没有 定义 ， 所 以 所 有 控制 信号 ， 除 了 msk, #F = 7 时 都 可 以 视 为 无 
关 项 。 然 而 ， 因 为 图 3-22 中 的 映射 电路 生成 9 = 0, 9 = 1, 9 = 0, m=1, AS F=1W, 
msk = 1， 这 些 信号 值 对 应 到 按 位 或 操作 ，ALU GEH F = 5 或 7 时 进行 按 位 或 操作 。 


表 3-7 ALU 映射 模块 真 值 表 


po | ff | & | & | s | % | m | msk 

加 法 ee ee a a ee 

减法 bo ct | te) ee E 

增 一 La nl ln | | 

减 一 一 一 一 一 一 一 二 0 

按 位 与 So i SE i N i 

按 位 或 RE 

按 位 排 | 
FË Ee a 
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f2 msk 


f1 ie: s2 
mi 


eo 
a pp 


图 3-22 ALU 映射 功能 电路 图 


3.6.2 ”设计 部 分 : 位 串 行 

位 串 行 设 计 ， 与 位 并 行 设 计 相 反 ， 需 要 输入 数据 位 分 到 各 个 电路 片 中 ， 对 于 位 串 行 
ALU 设计 来 说 ， 每 一 个 ALU 片 都 将 操作 输入 的 某 一 小 部 分 数据 ， 但 执行 所 有 ALU 的 功能 。 
例如 ， 图 3-23 展示 了 用 nn 片 1 ALU 设计 的 位 串 行 ALU。 表 3-8 为 1 位 ALU 乒 的 真 值 
表 。 对 于 没有 在 表 中 出 现 的 输入 ,+r 和 co 信号 被 认为 是 0。 此 外 ， 为 了 使 得 增 一 和 减 一 正确 
运行 ， 进 位 输入 信号 c- 必须 为 1。 这 就 要 求 当 ALU PRS FA 2 G—) 或 3 ( 减 一 ) 时 ， 


图 中 的 增 一 / 减 一 模块 生成 ei =l, 即 C-] = f afio 


a b 


CO 位 片 ALU Ci 
F=f2f1f0 





F = f2f1f0 
3-23 一 位 ALU RMA 1 位 片 设计 的 n 位 ALU 


表 3-8 1 位 ALU 片 真 值 表 
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1 


1 


加 法 


减法 


按 位 非 
未 定义 


因为 当下 =7 时 ,ALU 不 会 进行 任何 操作 ， 所 以 对 应 的 表 项 被 设 为 无 关 项 。 真 值 表 太 大 ， 

所 以 不 能 用 手动 的 方式 进行 化 简 。 用 Espresso 方法 输出 的 质 主 列 含 将 稍 后 列 出 。 虽 然 没 有 
特定 的 函数 去 定义 当 =7 时 的 情况 ， 当 所 = 7 时 ，1 位 ALU 片 输出 为 1。 注意 到 输出 0xFF 

也 能 被 8 位 2 的 补 码 表 示 为 - 1。 表 3-9 展示 了 当下 = 7 输出 为 - 工时 的 位 串 行 ALU 操作 的 

最 终 列表 。 


NS" 
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表 3-9 用 1 位 ALU 片 组 成 的 六 位 位 串 行 ALU 最 终 ALU 功能 列表 


> 


AAS OEB: AM Rt 93 


1 位 ALU 片 的 质 主 蕴 含 : 


#1-bit ALU-slice: Add, Sub, Inc, Dec, And, Or, and Not 
#Input signal labels 
#output bit label 
#list of min-terms 
2. 6 
@ 2 | 
-ilb £2 £1 £0 a p ci 
Ob co Ë 
‘O 15 
00—010 01 
0-01-1 10 
—0011- 10 
0-10-1 10 
=—0101— 10 
0——100 O01 
01-1-0 01 
00——11 10 
0——001 01 
10-11- Q01 
—0-111 01 
11-0— 01 
—1—0-1 01 
1 一 1 一 1 一 01 
1-11-—-— 01 
e 


通常 当 字 长 不 是 标准 字 长 的 时 候 ， 位 串 行 设 计 是 有 好 处 的 〈 例 如， 位 串 行 加 密 硬 件 
所 用 的 256 位 或 1024 位 操作 数 )， 或 者 其 等 价 的 位 并 行 设计 需要 更 多 的 硬件 去 实现 相同 的 
逻辑 。 
3.7 设计 实例 

作为 之 前 讨论 的 实现 整数 加 法 和 减法 操作 组 合 电 路 的 补充 ， 以 下 小 节 将 介绍 组 合 整数 
乘法 和 除法 电路 。 乘 法 的 基本 操作 为 加 法 ， 除 法 的 基本 操作 为 减法 。 然 而 ， 一些 乘法 和 除法 


算法 会 同时 用 到 加 法 和 减法 。 同 时 使 用 加 法 和 减法 操作 的 2 的 补 码 乘法 器 将 在 第 6 章 进 行 
介绍 。 


3.7.1 乘法 器 
图 3-24 展示 了 4 位 无 符号 乘 数 B= b3b2bib。 和 4 位 1001 A 
无 符号 被 乘 数 4 = a3azaiao 的 乘法 过 程 。 乘 法 过 程 的 每 一 ee 
步 产 生 一 个 加 数 。 在 图 中 ，(1001),。、(1001),。、(0000), 和 1001 
(1001) 是 产生 的 4 个 加 数 ， Arah bo, bi, bz F b; AIA ce 
相 与 产生 的 。 每 一 个 新 产生 的 加 数 会 左 移 丰 - 1 次 , KR — 7100011 P=B*A 


表 乘 法 的 步 数 。 如 图 所 示 ，4 个 加 数 在 相 加 产生 最 终 的 3-24 4 位 无 符号 二 进 制 乘法 实例 
乘积 己 之 前 都 被 分 别 按 顺 序 左 移 0、1、2 和 3 位 。 

例如 图 3-25 所 示 的 n = 4 乘法 过 程 ,设计 组 合 n 位 乘法 器 电路 的 一 种 方法 是 用 n 一 1 个 
n 位 加 法 器 和 nn 个 nn 位 按 位 与 模块 组 成 。 这 个 设计 很 直观 且 是 基于 图 3-24 所 示 的 步骤 进行 
的 。 但 是 这 种 设计 有 较 长 的 传输 延迟 因为 除了 前 两 个 加 数 ， 其 他 的 加 数 每 次 都 只 加 一 个 ， 这 
样 会 造成 很 长 的 从 输入 到 输出 的 信和 号 路 径 。 
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BNA BEAT AT LA 52 A ait Ar OE AT PRE, KREI ETN A EE 
一 起 时 ， 就 产生 了 一 种 叫 作 阵列 乘法 器 的 二 维 结构 。 图 3-26 展示 了 一 个 用 6 Bi) SM site SL 
的 4 位 阵列 乘法 器 。 加 数 的 和 值 每 一 次 都 能 够 确定 一 列 ， 有 点 类 似 于 多 个 加 数 的 手工 加 法 。 
在 图 中 ， 一 个 加 数 用 其 独立 的 位 ， 如 abi 表示 ， 这 里 w 表示 被 乘 数 4 的 第 i 位 ，bj 表示 乘 数 
下 的 第 7 位。 乘积 的 每 一 位 都 是 一 位 由 全 加 上 需 链 在 列 中 产生 的 最 终 和 。 在 每 一 列 中 ， 没 有 用 
到 的 输入 将 连接 到 0 上 。 最 后 一 位 乘积 位 PP 等 于 全 加 需 列 的 进位 输出 位 。 


进位 输出 


A 


A 
b1 bO 
: pat 3 nan 


4 位 按 位 与 4 位 按 位 与 
A[3:0].b1 0 A[0].b0 
进位 输出 


4 位 加 法 器 0 









A 
| 4 
4 位 按 位 与 和 [3:1] 和 [0] 
A[3:0].b2 
进位 输出 4 位 加 法 器 0 
ashe 
#0 [3:1] 和 [0] 
4 位 按 位 与 
A[3:0].b3 

4 位 加 法 器 0 
和 [3:0] 

p7 Pp6 Pp3 p4 p3 p2 p1 - po 


图 3-25 ”用 n 位 加 法 器 模块 组 成 的 4 位 无 符号 乘法 器 


在 图 中 ， 最 后 一 行 的 全 加 器 组 成 了 一 个 CPA, CPA 可 以 用 CLA 加 法 器 代替 从 而 将 乘法 
器 的 总 传输 延迟 降 到 最 小 。 


a3b0 a2b0 aibo a0b0 


图 3-26 用 阵列 全 加 器 实现 的 4 位 阵列 乘法 器 
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3.7.2 BRAR 


图 3-27 展示 了 用 一 个 4 位 无 符号 被 除数 (分 子 )N = nsnznino = 461011 除 以 4 位 除数 (分 
EE) D = 4”b0010 产 生 4 位 商 O = gaqg2qige = 4’b0101 和 4 位 余数 R= 4’b0001 的 除法 过 程 。N 
被 从 左 填 充 n -1 个 0， 在 这 个 例子 中 为 3 个 0; 即 最 开始 的 被 除数 为 {000, Ny, XEK G 
用 于 表明 为 串联 。 在 每 一 个 步骤 中 ， 除 数 DD 将 被 被 除数 较 高 的 n mA, 在 除法 的 第 k 步 
中 定义 为 4。 如 果 D < 44， 对 应 的 商 位 为 1; 否则 商 位 为 0。 

图 中 所 示 的 除法 步 又 也 被 称 为 恢复 除法 算法 ， 因 为 每 一 次 当 4< 呈 时 (例如 ，43 = 
4’b0001 < D = 4’b0010 ), A- D<0, 这样 Ar, 不 是 余数 Ri = 4A-D 用 于 下 一 步 除法 的 开始 ， 
即 为 “恢复 ”。 在 这 个 例子 中 , A 较 低 的 n 一 1 位 与 N 的 下 一 位 连接 组 成 下 一 个 nn 位 被 除数 
Ai-1。 需 要 特别 指出 的 是 ， 对 于 n = 4， 如 图 所 示 的 {000, M RA D 的 除法 步骤 和 产生 4 位 
O 和 4 位 RR 的 步骤 如 下 所 示 : | 

1 ) R; = 4; — D (4’b0001 - 4’b0010 = 471111) 产生 Ra =-1， 且 借 位 输出 为 1 (例如 bo, = 
1). q3=0. 

2) Ry = A — D (4’b0010 - 4’b0010) FÆ Ro =0, H bo. =0, qo=1. 

3 ) Ri =A, — D (£00001 - 4’b0010) FÆ Ri =-1, H bo. =1,. gi =0. 

4) Ro = Ao — D (4’b0011 - 4’b0010) 产生 Ro= 1, H boo = 0、go = 1。 最 终 的 余数 Ro = 
4”b0001。 


0101 Q=q3q2q1q0 


D 0010 | 00071 011 N, A3 = 0001 














-0010 | | | D>A3 
q3=0 < bo=1 HT R3=1111 
00010 | | A2=0010 
-00101 | D=A2 
q2=1 & bo=0 0000; | R2 = 0000 
00001 | A1 =0001 
-0010 | BSA 
qi=0 < bo=1 194993 R1=1111 
00011 A0 = 0011 
-0010 D<A0 
q0=1 < bo=0 0001 R = R0 = 0001 


3-27 ”恢复 除法 实例 


图 3-28 展示 了 4 位 位 并 行 恢 复 除法 的 数据 通路 。 在 除法 的 每 一 步 中 都 需要 用 到 一 个 减 
法 器 、 一 个 非 门 和 一 个 MUX。 减法 器 计算 R= A- D 并 产生 bor EPERRA, AA q= 
box. MUX 用 于 用 qi 位 选择 Ar RÉ Re。 公 式 (3-16) 估计 了 每 一 步 除 法 的 传输 延迟 。 

A division step Ambea + Bn (3-16 ) 

阵列 除法 器 ， 类 似 于 一 个 阵列 乘法 器 ， 可 以 用 一 个 1 位 除法 片 阵 列 来 组 成 。 每 一 片 将 完 
成 一 个 组 合 减法 器 MUX 的 功能 。 组 合 起 来 的 功能 可 以 翻译 为 最 小 SOP 或 者 POS 表达 式 的 
真 值 表 〈 更 多 细节 参照 练习 部 分 )。 

对 于 很 大 的 n， 一 个 算术 功能 设计 为 一 个 组 合 电 路 需要 相当 多 的 逻辑 门 来 实现 。 当 算 
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法 是 重复 的 并 且 可 以 替代 地 重复 实施 时 更 是 如 此 ， 例 如 乘法 器 和 除法 器 。 例 如 ， 除 了 用 4 
个 减法 器 、4 个 MUX 和 4 个 非 门 来 实现 如 图 3-28 所 示 的 4 位 恢复 除法 器 ， 我 们 也 可 以 
用 一 个 减法 器 、 一 个 MUX、 一 个 非 门 和 一 系列 的 寄存 器 来 产生 4 步 除法 中 的 4 个 商 值 。 
每 一 步 除法 的 结果 都 存在 寄存 器 中 。 然 而 ， 一 个 硬件 模块 重复 使 用 需要 一 些 额外 的 硬件 
来 控制 每 一 步 的 时 序 ， 且 会 稍微 增加 获得 最 后 结果 的 总 时 间 。 这 个 设计 将 在 第 6 章 中 进 
行 讨 论 。 
000 n3 
| 
A3 4 


bo3 bi0 


s< EE 











yi 
qi << ee | 4 位 减法 器 
ier: 


q0 <<a 4 位 减法 器 
ji 





R 


图 3-28 4 位 “恢复 ”除法 器 数据 通路 


3.8 ”实数 算术 


在 第 1 章 中 已 经 简要 地 讨论 过 实数 ， 例 如 ， 浮 点 数 的 表示 方法 。 表 3-10 作为 一 个 例子 
展示 了 3 位 指数 值 的 3 种 不 同 表 示 方 法 ， 分 别 为 2 的 补 码 有 符号 数 、 偏 移 量 为 3 的 偏 置 数 
和 偏 移 量 为 4 的 偏 置 数 。 这 三 种 指数 表示 法 的 指数 范围 分 别 为 - 4 ~ + 3、 偏 移 量 为 3 时 的 
-3 ~ +4 和 偏 移 量 为 4 时 的 -4 ~ +3。 
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R 3-10 3 位 市 符号 值 和 偏 置 指数 值 列 表 


3 位 指数 2 的 补 码 数 


001 


偏 置 指数 ， 偏 移 量 = 4 
~4=0-4 


011 


通常 情况 下 ， 使 用 偏 置 指数 能 让 设计 者 有 更 多 的 自由 来 决定 计算 机 系统 中 实数 的 集合 。 
在 这 个 例子 中 ， 当 偏 移 量 为 3 时， 最 大 正 指 数 为 4， 而 当 偏 移 量 为 4 时 ， 最 大 正 指 数 为 3。 
类 似 地 ， 当 偏 移 量 为 3 时， 最 小 负 指 数 为 - 3， 当 偏 移 量 为 4 时 ， 最 小 负 指 数 为 - 4。 这 表 
明了 当 偏 移 量 为 3 时 ， 将 有 更 多 可 以 表示 为 浮 点 数 的 实数 > |1| (绝对 值 )， 但 当 偏 移 量 为 4 
时 ， 将 有 更 多 可 以 表示 为 浮 点 数 的 实数 < |1 (绝对 值 )。 


3.8.1 FARERNE 


IEEE 754 标准 [3] 包含 了 三 种 浮 点 数 表示 方法 ,分 别 为 单 浮 点 数 、 双 浮 点 数 和 扩展 
双 浮 点 数 。 表 3-11 列 出 了 每 一 种 表示 方法 的 指数 和 分 数 范围 。 单 浮 点 数 和 双 浮 点 数 在 存 
储 器 或 者 外 存 中 尾数 分 别 是 23 和 52 位， 在 寄存 器 或 者 内 存 中 ， 尾 数 分 别 为 24 和 53 位 。 
扩展 双 浮 点 数 表示 方法 有 64 位 尾数 且 用 于 增加 浮 点 数 算法 的 精确 度 。 尾 数 一 般 用 带 符 
号 的 量 级 数字 表示 ， 拥 有 独立 的 符号 位 。 在 存储 器 或 者 外 存 中 没有 扩展 双 浮 点 数 的 表示 
方法 。 


表 3-11 IEEE 754 浮 点 数 标准 
zs AEREN | BANK) 
TT zi 
E at 
rea | ie | sae | 一 | «a | ww 


* 奔腾 处 理 器 系列 中 的 实现 


此 外 ，IEEE 标准 将 浮 点 数 分 为 5 个 数据 类 ， 单 数据 类 列 出 如 下 : 

e 0 

e 23 位 非 规格 化 尾数 

o 24 位 规格 化 尾数 (只 有 23 位 可 以 储存 在 存储 器 中 ) 

e EFA 

e NaN (不 是 一 个 数 )， 表 示 一 个 非法 的 浮 点 数 或 者 操作 

公式 (3-17) 表示 了 非 偏 置 指数 e 和 偏 置 指数 五 之 间 的 关系 。 单 浮 点 数 或 者 双 浮 点 数 的 
表示 形式 为 1.F x 2 ， 在 小 数 点 前 有 一 个 固定 的 1 ; 然而 ， 这 个 1 A aE a. F 
是 一 个 外 部 (存储 器 ) 尾数 ,而 1.F 是 一 个 内 部 (寄存 器) 尾数 。 一 个 非 规格 化 浮 点 数 被 定 
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MA OF x 2 ， 有 一 个 固定 的 0 在 小 数 点 前 。 
瓦 =e+ 偏 移 量 
e = E - {n E 
K 3-12 展示 了 每 一 种 数据 类 的 表示 范围 。 在 表 中 ，ewis 和 Cmax 表示 规格 化 浮 点 数 的 真正 
( 非 偏 移 量 ) 指数 范围 。 
例如 ， 假 设 偏 移 量 为 3 的 3 位 偏 置 指数 ， 公式 (3-18) 定义 了 每 一 种 数据 类 的 E 和 
F {Eo 


(3-17) 


=. E=0,F=0 
非 规 格 化 : E=0,F>0 
规格 化 : 1SE<6,F20 (3-18 ) 
Lek: 再 = 了 万 = 站 
非法 值 : E=7,F>0 


表 3-12 IEEE 浮 点 数据 类 


FRENG FERRER (HS EF) 


re r= TK) (11, £0} 
b= eax + 1 +/- NaN ( 非 数值 ) {0/1, E, F) 
128 {} 表示 级 联 


3.8.2 浮 点 数据 空间 


一 个 浮 点 数据 空间 可 以 用 计算 机 系统 中 浮 点 数 能 表示 的 实数 范围 表示 。 图 3-29 展示 了 
用 正 实 轴 表示 的 浮 点 数据 空间 。0 和 2“min (不 包括 0 和 2min) 之 间 的 水 平 虚 线 表示 非 规 格 化 
数据 空间 。 细 线 和 粗 线 表 示 当 尾数 只 有 2 位 时 用 浮 点 数 表示 的 特殊 实数 。 在 表示 法 中 浮 点 数 
更 多 的 位 数 意味 着 可 以 表示 更 多 的 实数 。 


Petite} |} a 


Demin 2emin+1 2emint3 


- - - 湛 规 格 化 轴 
— 规格 化 轴 
3-29 2 位 尾数 的 浮 点 数据 空间 


例如 ， 在 单 浮 点 表示 法 中 ， 偏 移 量 为 127 时 ，8 位 非 偏 置 指数 的 范围 是 从 emin = - 126 
到 Cmax = 127。 每 一 个 尾数 为 23 位 。 其 数据 空间 在 每 一 对 粗 线 之 间 有 2” - 1 条 细 线 。 双 浮 点 
数据 空间 在 每 一 对 粗 线 中 有 2” - 1 条 细 线 。 
图 3-30 展示 了 可 以 表示 为 有 1 位 符号 位 ，2 位 尾数 和 偏 移 量 为 3 的 3 位 指数 的 6 位 浮 
点 数 的 正 实数 。 如 图 所 示 , 17 个 实数 范围 从 0.25 ~ 14.0 (包括 ) 可 以 表示 为 6 位 浮 点 数 形式 。 
129| 从 0 ~ 0.25 (不 包括 ) 的 浮 点 数 会 被 认为 是 非 规 格 化 的 。 
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给 出 实数 + 10.75 的 对 应 的 外 部 (存储 器 ) 单 浮 点 数 表示 形式 。 
解 : 首先 ， 将 数值 转换 成 二 进 制 形式 。 然 后 将 其 表示 形式 转换 为 科学 表示 形式 。 
+10.75 = (1010.11); 
= (1010.11), * 2° 


= (1.01011), * 2° (1LF x 2 的 非 偏 移 科学 形式 ) 
= (1.01011) * 2*7 ( 偏 移 量 = 127 的 偏 移 科学 形式 ) 
= (1.01011), * 2°” (1.F x 2° W IEEE 形式 ) 


结果 为 如 下 的 32 位 数 ， 由 一 位 符号 位 = 0, 8 位 偏 置 指数 = 130 = (10000010), 和 23 位 
尾数 = (010110…0), 表示 的 数值 : 


0 | 10000010 0101100000000000000000 


或 者 写成 十 六 进 制 : 0x412C0000。1.F 中 的 1 没有 被 存储 至 存储 器 中 。 a 

除了 符号 位 ， 浮 点 数 的 正 数 和 负数 的 表示 方法 是 一 样 的 。 负 浮 点 数 的 符号 位 为 1。 例 
如 ，- 10.75 在 存储 器 中 单 浮 点 数 表示 为 0xC12C0000。 

二 维 展示 

表示 浮 点 数据 空间 的 男 一 种 方法 是 用 矩形 域 表 示 [4]， 如 图 3-31 所 示 ， 表 示 的 是 单 浮 点 
数 。 两 个 分 开 的 二 维 表 示 用 于 分 别 表示 正 浮 点 数 和 负 浮 点 数 的 数据 空间 。 在 图 中 , x 轴 上 的 
任意 点 表示 指数 值 ， 而 y 轴 上 的 点 表示 尾数 值 。 两 轴 的 数据 范围 不 相同 。 

和 图 3-29 中 的 一 维 表示 相 比 ， 二 维 表示 更 容易 定位 一 个 特定 浮上 点 数 的 位 置 ， 或 者 一 个 
浮 点 函数 的 定义 域 和 值 域 ,例如 余弦 值 。 例 如 ,余弦 函数 的 值 域 范围 是 0 ~ 1.0 之 间 包 括 0 
和 1.0 所 有 可 表示 的 浮 点 值 。 例 如 ， 函 数 的 定义 域 和 值 域 可 能 用 于 生成 FPU 的 测试 向 量 [4]。 
图 3-32 展示 了 在 二 维 浮 点 数据 空间 中 一 些 示 例 浮 点 值 的 位 置 。 

最 小 的 正规 格 化 浮 点 值 在 图 中 被 标记 为 第 一 项 上 且 位 置 在 正规 格 化 空间 的 左下 角 , 其 E = 
1 且 F = 0。 最 小 的 (例如 最 大 级 ) 负 规 格 化 浮 点 数 被 标记 为 第 二 项 上 且 位 置 在 负 规 格 化 空间 的 
ALA, HE=2540H FA 1, Bl 255. + 1.0 被 标记 为 第 三 项 目 其 位 置 在 + 规格 化 空间 的 
最 下 方 ， HE=127H F=0. + SKRE=OHF=0. + KHKEHE=255H F=0,. MAF 
Intel FREE AEA, AAPA ERR, BIO NaN (QNaN) 表示 一 个 非法 操作 
数 一 一 例如 ，- 1 的 开 方 一 一 或 者 信号 NaN (SNAN) 表示 一 个 非法 操作 [5]. 

双 浮 点 数据 空间 的 二 维 展示 也 是 类 似 的 ， 除 了 用 于 表示 指数 和 尾数 数字 的 位 数 不 一 样 以 
外 ， 在 双 浮 点 数据 空间 中 ， 指 数 为 11 位 ， 尾 数 为 52 位 。 


3.8.3 浮 点 运算 


一 个 浮 点 数 的 指数 和 尾数 分 别 都 是 整数 且 在 浮 点 运算 中 可 以 分 别 操 作 。 例 如 ， 两 个 实数 
0.1075 (10.75 x 10-“) 和 72.5 (0.725 x 10°) 进行 相 加 ， 更 小 的 尾数 将 右 移 小 数 点 ， 使 得 小 数 
点 对 齐 ， 进 而 得 出 两 数 之 和 72.5075( 0.725075 x 10*)。 较 小 尾数 移动 的 位 数 取 决 于 两 个 指 
数 。 两 个 二 进 制 实数 相 加 的 算法 和 十 进 制 是 相同 的 ， 将 在 以 下 列 出 。 标 记 4.s ABs, AE 和 
B.E, AF 和 B.F 分 别 表示 两 个 浮 点 数 4 和 B 的 符号 位 、 偏 置 指数 值 和 外 部 (存储 器 中 ) 尾数 
值 ， 即 





A= {4A.s, A.E, A.F} 
B = {B.s, B.E, B.F} 


AAG EB: AB Kitt 


符号 0: ER 
Sa 11111 
\ 
x 
Hg 
HE 
4 
H 
N 
E 00...... 
P Oe 
254 p 254 e 
X$: o k E) 
z: = a: NaN 
d: 非 规格 化 i: 无 穷 大 


Ws 规格 化 
图 3-31 单 浮 点 数据 空间 的 二 维 展示 


符号 0: IER 


23 位 扩展 尾数 (F ) 





Ley. | es bid 
01 127 254 255 01 254 255 
X 轴 : 8 位 偏 置 指数 (E ) 

最 小 规格 化 正 浮 点 数 :0, 00000001, 00000000000000000000000 =~ 1.175*10-38 
最 小 规格 化 负 浮 点 数 :1 11111110, 11111111111111111111111=~ -3.40*10+38 
3] +1.0:0,01111111, 00000000000000000000000 
[z] + 零 :0,00000000, 10000000000000000000000 
[i] -无 穷 大 :1 11111111, 00000000000000000000000 
Ca] 静态 NaN ( QNaN ) : 定义 为 未 定义 操作 ， 如 人 1 


Cs] 信号 NaN ( SNaN ) : 定义 为 非法 操作 
[r] 不 明 实 数 ( 一 种 特殊 的 QNaN ): 1, 11111111, 10000000000000000000000 


图 3-32 ŽA FPN 的 实例 





这 里 ff} 用 于 表示 级 联 

浮 点 加 法 算法 : 规格 化 数据 空间 

1 ) 将 输入 初始 化 : 4 必须 大 于 等 于 B。 

i. 将 4.F= {1, A.F} Ñ B. F = {1,B.F} 转换 为 内 部 (AP) 尾数 表示 。 
ii. 保证 |A| = |B| WR |< |B|, 将 4、B 值 交 换 ; X RAN X HANIA. 
2) 对 齐 小 数 点 : HB. FRR Do D 的 定义 如 下 。 

iit D=A.E-B.E. 

ii. B. FRB DW, 左边 用 0 填充。 

3) 生成 结果 (R): HAR FH=A.F + B.F, 
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i ÆW R.F, (FAA. F5 B. F 的 和 或 差 ， 根据 以 下 As 与 B.s 的 值 判断 进行 的 操作 : 
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4.s I Es | 运 算 


iikRs=A.s A RE=A.E, 

4) 将 结果 规格 化 : WR R. F 未 规格 化 ， 将 R. FF 转换 为 1.F 的 形式 。 

i 如 果 R.F 的 形式 为 1x.F， 这 里 x 在 3.i 步 中 不 是 0 就 是 1， RH REMI AR. FAG 
一 位 ， 得 到 1.F 形式 ; 1x.F 的 LSB (最 低 有 效 位 ) 将 丢失 。 

i 或者， 如 果 3.i 步 中 R.FF 有 前 导 零 ， 则 R. FF 每 左 移 一 位 就 将 R.E 减 1， 为 了 消除 前 
导 零 ， 将 R.F 转 换 为 1.F 的 形式 。 例 如 ， 如 果 R.F = 0.01xxxxxx…x， 则 将 左 移 两 位 变 为 
1.xxx…Xx(1. 已 形式 )。 在 这 个 例子 中 ，R. 瑟 必须 减 2。 

5) 将 结果 四 舍 五 入 : 

RAKAR, S.F = {1, SF}, RBMK R. F 中 选择 相应 的 位 数 : 内 部 表示 中 单 浮 点 
数 为 24 位 ， 双 浮 点 数 为 54 Mo RE R. F 未 使 用 的 较 低位 。 然 而 ， 低 去 的 位 数 可 以 用 于 四 铭 
五 人 人， 可 能 会 导致 在 S. F 的 最 低 有 效 位 上 加 1。 如 果 四 舍 五 人 后 的 S. F 又 变 成 了 1x.F, HA 
需要 重新 将 其 规格 化 为 1.F 的 形式 。 对 于 四 舍 五 人 更 完整 的 讨论 还 应 包括 在 EEE 浮 点 标准 
中 列 出 的 guard (G), round (R) 和 sticky (S) 等 位 ， 但 已 超出 了 本 书 涵盖 的 范围 。 

6) 最 终 输 出 : 

在 存 人 内 存 之 前 ，R.s、R.E 和 SF 将 连接 成 32 位 单 浮 点 数 或 者 64 位 双 浮 点 数 ， 即 

S= {R.s, R.E, S.F} 

在 上 千 万 个 运算 中 ，R. F 为 64 位 ， 且 所 有 整数 运算 和 位 移 函 数 都 可 以 用 于 64 位 尾数 中 
来 将 四 舍 五 人 错误 减少 到 最 小 值 。 

EEJ 4 =17.875 且 B=15.75, 计算 $=A4+B。 假设 4.8 和 SS 都 为 具有 1 位 符号 位 、 

偏 移 量 = 63 的 7 位 e 指 数 和 8 位 尾数 的 16 位 浮 点 数 。 

解 : 计算 S=A4+B 的 5 个 步骤 如 下 : 

1 ) 将 实数 4 AB 转换 为 二 进 制 表 示 法 。 

2) 将 二 进 制 表示 法 转换 为 与 其 等 价 的 非 偏 置 指数 科学 形式 。 

3 ) 将 非 偏 置 指数 科学 形式 转换 为 与 其 等 价 的 偏 置 指数 形式 。 

4) 将 偏 置 指数 形式 转换 为 16 位 内 存 表 示 形 式 。 

5) 遵循 浮 点 加 法 算法 ， 将 两 个 浮 点 数 相 加 。 

步骤 1: 转换 为 二 进 制 


4=10001.111 x 2° B= 1111.11 x 2° 
步骤 2: 科学 形式 ( 非 偏 置 指数 ): 
4=1.0001111 x 2° B=1.11111 x 2° 


步骤 3: 科学 形式 ( 偏 置 指数 )，IEEE 形式 为 1.F x 2° 
A=1000111L Wo"*® B=11I X 7*9 
A=1,0001111 x 2” Bl ll u 2" 
步骤 4: 内 存 中 表示 形式 : 
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A = 0x431E (0, 1000011, 00011110) B = 0x42F8 (0, 1000010, 11111000) 
步骤 5: 运用 之 前 讨论 的 浮 点 加 法 算法 : 
1 ) 初始 化 输入 : 
因为 |4| > |8|， 所 以 不 需要 将 4 M B EM, 
A. s = 0, A.E = 1000011 (67), A. F = 1.00011110 
B. s = 0, B.E = 1000010 (66), B. F = 1.11111000 


2) 对 齐 小 数 点 : 
D = A.E - B.E 
= (1000011) — (1000010), 3} 67 - 66 = 1 
= 0000001 
将 B. F 右 移 一 位 (D=1 ) 443] B. F=0.111111000 
3) 生成 和 : 
R.F=A.F+B.F 
= 1.00011100 + 0.111111000 
= 10.00011010 (not in the 1.F format) 
R.s =A.s =0 
R.E = A.E = 67 
4) 规格 化 结果 : 


i. R.E 加 1 得 到 R.E = 68 (67+ 1). 
ii. R. F 右 移 一 位 得 到 R. F = 1.000011010 (为 1.F ÉR). 
5 ) 结果 四 舍 五 入 : 
选择 R. F 的 高 9 位 为 S.F = 1.00001101。R. FF 的 低位 都 为 0， 所 以 忽略 不 计 。 结 果 为 : 
S. F = 1.00001101, S.F = 00001101 
(然而 ， 如 果 R.F 为 1.000011011， 其 最 低 有 效 位 为 1!， 则 需要 将 S.F 四 舍 五 人 为 
1.00001110, Bf 1.00001101 + 0.00000001.) 
6) RAZR: 
S= {R.s, R.E, S.F} 


S= {0, 1000100, 00001101} (或 0x440D 在 存储 器 中 ) 5i 


5 将 转换 为 十 进 制 数 ， 如 下 所 示 : 
S=1.00001101 x 26 ( 偏 置 科学 表示 ) 
S= 1.00001101 x 2676 (转换 成 非 偏 置 ) 
S= 1.00001101 x 2° ( 非 偏 置 科学 形式 ) 
S = 100001.101 (二 进 制 ) 
S = 33.625 (十 进 制 ) 
= 17.875 + 15.75 
浮 点 减法 、 乘 法 和 除法 都 是 类 似 的 过 程 。 对 于 减法 ， 尾 数 先 对 齐 ， 与 加 法 中 一 样 ， 然 后 
如 果 A.s = B.s MHIR, A.s ~ B.s 则 相 加 。 对 于 乘法 ， 尾 数 相 乘 ， 指 数 相 加 ， 且 符号 位 进行 
异 或 运算 。 最 后 ， 对 于 除法 ， 尾 数 进行 整数 除法 ， 指 数 相 减 ， 符 号 位 进行 异 或 运算 。 四 舍 五 
和信 和 规格 化 步骤 与 之 前 讨论 的 浮 点 数 相 加 步骤 相同 。 
然而 ， 因 为 对 于 浮 点 数 除法 ， 被 除数 的 内 部 尾数 N. F 和 除数 的 内 部 尾数 D. F 最 高 有 效 
位 都 为 1，N. F 不 用 在 左 侧 补 零 ， 如 图 3-28 所 示 的 整数 除法 (参考 练习 3.29 ) 。 
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3.8.4 FART 
图 3-33 展示 了 浮 点 加 法 器 的 数据 通路 。 数 据 通路 包括 实现 算法 中 每 一 步骤 的 组 合 电路 


模型 。 在 数据 通路 中 ， 如 果 |4| < B 则 会 用 到 交换 模块 。 为 了 保证 |4| 小 于 |8|，4.E 必须 小 


于 BE, 或 者 如 果 A.E = BE, A. FF 必须 小 于 B. 下 。 交 换 模块 (未 展示 ) 中 的 两 个 减法 模块 生 
成 4.E--B.E 和 4.F-B.F 的 差 值 。 这 两 个 模块 的 借 位 信号 表示 |4| > |B) 是 否 为 真 。 

WÈ |A| < |B|, W AFB 必须 进行 交换 ，4 为 较 大 的 数 ， 为 数据 通路 左边 的 输入 。 两 个 
2-1 的 MUX (未 展示 ) 在 需要 时 转换 将 4 转换 为 B 或 者 将 BERRA A. WR AE < B.E 或 者 
“AE=BEHAF<BFRM, 4 和 8B 两 个 输出 需要 进行 转换 。 

在 计算 AF + B. FF 时， 右 移 模 块 用 于 调整 小 数 点 的 位 置 。 位 移 模块 也 用 于 每 一 个 的 规 
格 化 和 四 舍 五 和 人 模块。 组 合 位 移 将 在 后 续 讨 论 。 





3-33” 浮 点 加 法 器 的 数据 通路 


组 合 位 移 

组 合 位 移 器 用 log. (k) 个 2-1 MUX XM, HAR log (月 层次 ,其 中 上 表示 数字 需要 移 
动 的 范围 。 例 如 ， 对 于 k= 8， 组合 位 移 其 可 以 将 输入 右 移 0 ~ 一 1 位 或 者 7 位 。 图 3-34 
展示 了 上 = 8 的 8 位 组 合 右 移 器 。 3 位 S = s8180 可 以 移动 的 范围 是 0 7 位。 $2、 S1 和 so 为 
三 个 MUX 的 输入 。 

如 图 所 示 ， 当 so= 0 时 ， 最 高 层 (第 0 层 ) MUX 选择 对 作为 输出 ， 当 so = 工时， 选择 艺 
右 移 一 位 作为 输出 。 当 ss = 0 时 ， 下 一 个 MUX 选择 了 作为 输出 ， 当 s1 = 1 时 ， 选 择 了 右 移 
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两 位 作为 输出 。 例 如 ， 当 = 0 时 ， 最 后 最 底层 (第 2 层 ) MUX 选择 Z 作 为 输出 ， 当 s: = 1 
时 ， 选 择 ZAR 4 位 作为 输出 作为 输出 。 

例如 ， = S=s2 S1 So = (011) 时 ， So= 1 使 得 第 0 层 的 MUX 将 右 移 一 位 输出 。 入 号 SI 三 ] 
使 得 第 1 层 将 了 右 移 两 位 作为 输出 。 最 后 s= 0 使 得 第 2 J MUX 输出 Z 本 身 数 值 。 作 为 结 
果 ， 位 移 兹 将 对 右 移 了 3 位， 当 S=(101); 时, 了 将 右 移 5 次 。 当 S=(111); 时 , X TARK 
最 大 次 数 为 7 次 。 
| X=x7..x0 
0 7..1 
so 
l 00 72 Y 

1 oz 0 
Z 


s1 1 MUX ( 第 x 层 ) 


i oo 


1 oe 





s2 2-1 MUX ( 第 x 层 ) 


3-34 8 位 填充 零 的 组 合 右 移 器 
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练习 


3.1 现 有 一 个 CPA (8)，8 位 的 CPA， 完 成 以 下 练习 : 
a. 用 非 门 和 与 非 门 设计 一 个 加 法 器 ， 并 给 出 所 需 逻 辑 门 的 总 数量 。 使 用 第 2 章 给 出 的 全 加 器 SOP 
表达 式 实 现 。 
b. 给 出 所 需 三 极 管 总 数量 。 
c. 设计 一 个 CPA (32) 需要 多 少 三 极 管 ? 
3.2 计算 下 列 2 的 补 码 的 和 与 差 值 。 对 于 每 个 结果 标明 是 否 有 溢出 的 情况 。 


a) b) 
A: 11001100 A: 11111090 
B: 00110100 B: 00001000 


3.3 


3.4 


aD 


3.6 


ae | 


3.8 
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3.10 


3.11 
3.12 


SLA 


3.14 


3.15 
3.16 


wro i UPa + 
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a 


) d) 
: 00000001 As 11LILO00 
: 00000010 B: 00001000 
) f) 
: 10000010 A: 01111101 
: 00000011 B: 11111010 


给 出 1 位 PGU 和 1 位 CGU 的 POS 表达 式 并 用 非 门 和 或 非 门 画 出 它们 的 电路 框图 ， 要 求 使 用 最 
少 的 逻辑 门 数 量 。 
假设 一 个 8 位 加 法 器 使 用 两 个 4 位 CPA (标记 为 CPA1 和 CPA2 ) 组 成 的 ， 其 中 进位 输出 cs 作为 
CPA2 的 进位 输入 。CPA1 传人 原始 进位 输入 c-i。 为 了 提高 加 法 器 的 运行 速度 ，cs 的 生成 公式 为 
C3 = 83 + pag2 + pap2g1 + Pap2pigo + papxpipoc-1， 其 中 pp 和 gg 可 以 在 0.3ns 内 生成 。 给 出 新 的 加 法 器 
可 以 提升 的 速率 值 ，A FAc = 0.5ns。 
设计 和 估计 用 以 下 模块 实现 的 16 位 混合 加 法 器 的 传输 延迟 : 
a. 2 个 CLA (8) 模块 
b. 4 个 CLA (4) 模块 
c. 8 个 CLA (2) 模块 
通过 计算 ACPA (8) 与 ACLA (8) 的 比值 比较 ACPA (8) 和 ACLA (8) 速率 。 使 用 全 加 器 的 SOP 
表达 式 。 
用 4 位 BCGU 设计 15 位 CLA， 其 中 每 一 个 BCGU 输出 3 个 进位 以 及 p* 和 g* 信号 。 
用 1 位 2-1MUX 设计 一 个 1 位 8-1 MUX。 假 设 与 非 门 有 0.1ns 延迟 ， 给 出 其 传输 延迟 的 估计 。 
用 1 位 2-1 和 1 位 4-1MUX 设 计 一 个 1 位 8-1 MUX。 假 设 与 非 门 有 0.lns 延 迟 ，4-1 MUX 用 
SOP 表达 式 实 现 ， 同 时 估计 其 传输 延迟 。 
估计 图 3-16 中 8 位 ALU 的 传输 延迟 ， 假 设 与 非 门 有 0.1ns 延迟 ， 加 法 器 用 CLA (8) LH, AR 
有 2-1 MUX 可 用 。 
证 明 图 3-22 中 的 电路 可 以 实现 ALU 映射 模块 。 
现 有 一 个 8 位 位 并 行 ALU， 其 只 能 实现 4 个 功能 加法、 减法 、 按 位 与 和 异 或 。 假 设 一 个 加 法 
器 /减法 融 模 块 用 一 个 由 CLA (2) 模块 组 成 的 混合 加 法 器 设计 。 此 外 ， 当 进行 按 位 计算 时 洲 出 标 
DAUR. BERA 8 位 2-1 MUX 可 以 选择 。 完 成 以 下 练习 : 
a. 画 出 数据 通路 并 估计 其 传输 延迟 ， 假 设 非 门 和 与 非 门 有 0.1ns 延迟 。 
b. 给 出 其 映射 模块 的 真 值 表 。 
用 2-1 译 码 器 模块 设计 一 个 4-2 译 码 器 。 提 示 : 你 也 许 还 需要 一 个 1 位 2-1 MUX 和 一 个 2 输入 
或 门 。 
用 4-2 译 码 器 模块 设计 一 个 8-3 译 码 器 。 提 示 : 你 也 许 还 需要 一 个 2 位 2-1 MUX 和 一 个 2 输入 
或 门 。 
用 表 3-8 中 给 出 的 1 位 ALU 片 真 值 表 设 计 图 3-23 所 示 的 8 位 位 串 行 ALU. 
设计 一 个 2 位 2 的 补 码 比较 器 ， 且 用 4 个 比较 器 模块 来 设计 8 位 比较 器 。 提 示 : 一 个 2 位 2 的 
补 码 比 较 器 输入 两 个 2 位 输入 4、B 和 gti (大 于 )、eqi (EF) Alti (小 于 ) AS, “i” HARM 
之 前 的 模块 输入 ， 输 出 信号 为 gto、eqo 和 1lto,“o” 表 示 输 出。 首先 设计 一 个 只 有 4 和 B 的 2 
位 2 的 补 码 比较 磊 生 成 三 个 输出 ， 当 4 > B 时 输出 为 ett, A=B 时 输出 为 eqt、4 < 8B 时 输出 Itt, 
这 里 “+” 表示 最 初 的 。 然 后 将 gtt, egt, itt 与 gti、eqi、1lti 组 合 起 来 生成 gto, eqo Mito. HA, 
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3.17 


3.18 


3.19 


3.20 


3.21 


3.22 
3.23 
3.24 
3.29 
3.26 


3.27 


4 (gti=1 H gtt=1) 3} (gti=1 Heqt=1) K (eqi=1 A gtt=1) K (lti=1 H gtt=1) 有 时， 
gto= 1, 

现 有 图 3-26 给 出 的 4 位 阵列 乘法 器 。 完 成 以 下 练习 : 

a. 根据 进位 与 和 值 的 传输 延迟 估计 其 传输 延迟 ; 即 根据 A FAc 和 AFAs。 

b. 给 出 于 位 阵列 乘法 器 的 传输 延迟 公式 。 

现 有 8 位 阵列 乘法 器 ，CLA (8) 替换 了 最 后 一 行 的 CPA (8)。 假 设 AFAc=0.2ns, AFAs = 0.3ns 
H CLA (8) = 0.8ns， 问 新 的 乘法 器 可 以 比 原来 的 乘法 器 运行 多 快 ? 

用 恢复 除法 算法 运算 用 和 NW = 10101101 U D = 1110。 你 可 以 使 用 计算 器 进行 二 进 制 运算 来 验证 
你 的 结果 。 

首先 通过 设计 一 个 1 位 组 合 减法 MUX 位 片 来 设计 一 个 阵列 除法 器 ， 使 得 传输 延迟 最 小 〈 例 如 ， 
SOP 或 者 POS RAA); 然后 用 其 来 设计 4 位 位 串 行 减法 MUX 模块 ; 且 用 其 替换 图 3-28 中 的 4 
位 减法 和 4 位 MUX 对 。 

用 你 熟悉 的 语言 (或 者 用 Excel) 写 出 实现 以 下 倒数 除法 算法 的 程序 ， 且 当 D = 1.0 时 做 一 次 观 
察 。 然 后 证 明 倒数 除法 算法 ， 计 算 0O， 等 于 ND， 用 除法 运算 (/) 计算 。 倒 数 除 法 算法 如 下 : 
#define ITERATIONS 15 


Procedure () 


float D; N, Q; 
float R; 
input D; N; //e.g., D = 1.99 and N = 2.4 


For j = 1 to INTERATIONS do 
R = 2 = D3 
D= D * R; 
N =N * R; 


print Js D; Ni R 
Endfor 


} 


考虑 到 在 计算 2 的 过 程 中 没有 除法 操作 ; ENBRA D 中 只 用 到 了 乘法 操作 和 减法 操作 。 这 个 算 
法 是 在 硬件 Intel x486 处 理 融 中 作为 浮 点 除法 指令 存在 的 。 执 行 两 次 程序 ， 一 次 用 输入 DD = 1.99 
且 N = 2.4， 一 次 使 用 输入 = 1.56 且 N= 2.4。 考 虑 到 DD 的 尾数 总 是 小 于 2 (例如 ，D 的 最 大 尾 
数 的 二 进 制 表示 为 1.1111111…1 < 2,“ 浮 点 ”类 型 中 小 数 点 后 有 23 个 1,“ 双 浮 点 ”类 型 中 小 
数 点 后 有 52 个 1 )。 

4 DERK 1.0 时 比较 YX 值 和 用 原始 W (No) 除 以 (/) 原始 (Do) (例如 CO = 2.4/1.99 ) RHR O 
值 。 对 于 某 些 i 当 D; 变 为 1.0 时 ， 比 较 和 N; 和 0 = MD。 对 于 某 些 i， 当 Di = 1.0 时 可 以 得 到 O = 
NM 95? 这 两 次 运行 你 注意 到 什么 ? 

给 出 6.725 的 IEEE 浮 点 表示 。 

给 出 0.35 的 IEEE 单 浮 点 类 型 表示 。 

0x41DD0000 是 IEEE 单 浮 点 数 。 在 十 进 制 中 其 表示 的 数值 为 多 少 ? 

给 出 两 个 单 浮 点 数 4 = 0xC18D0000 = — 17.625 和 B= 0x41080000 = 8.5 相 加 求 出 和 值 (S) 的 步骤 。 
设计 一 个 8 位 组 合 右 移 运算 器 。 每 一 次 数值 进行 一 次 运算 右 移 ， 符 号 位 不 变 。 且 给 出 - 80 右 移 
三 次 的 步骤 (- 80 >>> 3 )。 

用 CPA( 8) 设计 一 个 8 位 2 的 补 码 的 加 法 器 /减法 器 Verilog 行为 和 结构 模块 并 进行 仿真 。 用 
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3.28 


3.29 


RIF 


“case” 语 句 来 描述 一 个 全 加 器 ; 然后 用 一 个 Verilog 结构 模块 来 设计 CPA (8 )， 使 用 8 个 全 加 
器 副本 。 用 “assign” 语 句 来 溢出 标记 (ovf) 的 表达 式 ， 用 “if-else ”语句 来 描述 转换 模块 。 设 
计 一 个 Verilog 测试 模块 来 测试 你 的 设计 是 否 正确 ， 使 用 测试 向 量 0x80 - 0x01 和 Ox7F + 0x01。 
在 两 个 例子 中 溢出 标记 是 否 为 真 ? 

用 Verilog 设计 一 个 8 位 恢复 除法 器 。 用 一 个 Verilog 行为 模块 设计 一 个 1 位 与 全 加 器 相似 的 减 
法 器 。 且 设计 一 个 8 位 与 8 位 CPA 类 似 的 BPS。 设 计 一 个 8 位 2-1 MUX WTA. HAF 
个 BPS 和 MUX 模块 结合 起 来 用 于 设计 除法 器 。 设 计 一 个 测试 模块 来 测试 你 的 设计 。 
考虑 外 部 尾数 N.F = 1, N.F} 的 浮 点 被 除数 和 内 部 尾数 D.F = (1, D.F) 的 浮 点 除数 ， 其 中 N.F 
Al D.F 都 为 4 位 数值 。 用 练习 3.20 中 4 位 位 串 行 减法 MUX 设计 一 个 FPU 中 的 整数 除法 器 。 提 
AR: N.F 将 从 右边 填充 0 ; 这 个 例子 中 ， 在 每 一 步 中 4i 总 是 一 个 5 位 数值 和 414[4]， 最 高 有 效 位 
(MSB)， 不 用 于 确定 下 一 位 数 ( 例 如 A [3:0] - D.F); 在 每 一 步 中 4i [4] 用 于 与 借 位 输出 (bo) 连 
接 来 决定 ie -个 商 位 qx = Ai 4] + (box). 


计算 机 安全 


3.30 


3.31 


计算 机 安全 (硬件 木马 ) : 练习 11.12 了 解 计 算 机 恶意 电路 如 何 设 计 。 不 用 实现 其 触发 机 制 ; A 
接 操 作 MUX 来 引起 计算 机 攻击 (参照 11.2 节 )。 

计算 机 安全 (访问 控制 ): 练习 11.26 设计 一 个 适用 于 硬件 实现 的 分 级 访问 控制 模块 (参照 11.1.4 
4AM 11.1.5 4), 
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时 序 电 路 : 核心 模块 


4.1 简介 


尽管 组 合 电路 是 必要 的 而 且 也 是 数字 系统 中 重要 的 一 部 分 ,但 它 的 输出 仅仅 取决 于 当 
前 的 输入 。 希 望 输入 中 的 任何 变化 都 会 改变 当前 的 输出 。 而 在 为 一 方面 ， 时 序 电路 的 输出 不 
仅 取 决 于 当前 的 输入 ， 还 受 之 前 输入 的 影响 。 例 如 ， 如 图 4-1 中 的 描述 ， 如 有 果 使 用 一 个 单 问 
加 法 需 去 计算 出 几 个 数 的 和 ， 那 么 必须 要 有 一 个 初始 全 为 0 的 部 分 和 被 存储 起 来 ， 而 且 能 够 
和 一 个 新 的 数值 相 加 产生 下 一 个 部 分 和 和。 因此， 这 个 电路 是 个 时 序 电路 ， 因 为 当前 的 部 分 和 
是 由 之 前 输入 的 所 有 数值 进行 相 加 得 到 的 ， 而 且 ， 下 一 个 部 分 和 的 值 取决 于 被 加 的 下 一 个 数 
值 ， 即 现在 被 输入 到 加 法 器 的 值 ， 也 是 当前 被 送 到 部 分 和 的 值 。 

通常 情况 下 ， 一 个 复杂 的 时 序 的 数据 通路 要 求 要 有 组 合 电路 去 产生 结果 输出 ， 还 要 有 一 
个 存储 模块 (通常 是 寄存 器 ) 来 保存 这 些 结果 。 数 据 通路 还 需要 一 个 遭 循 一 组 特定 步骤 〈 即 
算法 ) 的 控制 单元 〈 控 制 器 ) 以 便 通 过 数据 通路 实现 复杂 的 功能 。 控 制 单元 是 一 个 时 序 电路 ， 
它 使 用 存储 模块 来 保存 它 当 前 的 状态 〈 如 算法 中 的 具体 步骤 )， 这 样 就 能 够 根据 现在 接收 到 
的 输入 去 决定 它 的 下 一 个 状态 。 

时 序 电路 还 要 求 有 一 个 时 序 控制 信号 ， 称 为 时 钟 。 它 用 于 去 确定 在 什么 时 间 一 个 值 ( 比 
如 图 4-1 中 加 法 器 的 和 ) 应 当 被 保存 在 存储 模块 中 。 注 意 ， 加 法 需 不 会 在 同一 时 刻 产 生 和 的 
每 一 位 。 和 的 每 一 位 都 是 由 一 个 组 合 电路 在 一 个 特定 的 传播 延 时 后 输出 的 。 传 播 延 时 小 的 电 
路 输出 的 结果 将 会 快 于 传播 延 时 大 的 电路 。 因 此 ， 加 法 器 在 经 过 它 内 部 最 大 的 传播 时 延 之 后 [L141 
产生 的 输出 和 才 是 有 效 的 。 否 则 ， 和 的 一 位 或 多 位 仍 在 变化 中 ， 因 此 和 是 无 效 的 。 时 钟 信号 
给 出 和 的 有 效 时 间 ， 然 后 让 存储 模块 把 它 保 存 下 来 。 


序 信 
(clock) 






加 法 器 
( 作为 组 合 电路 ) 


图 4-1 时 序 电 路 示意 图 ; 它 计算 出 几 个 数值 的 和 ， 如 Vo, V 等 


这 一 章节 涉及 了 设计 存储 模块 所 需要 的 核心 逻辑 电路 。 在 核心 电路 中 ， 输 出 反馈 回来 又 
作为 输入 ， 因 此 该 电路 可 以 保留 住 一 个 输出 值 ， 于 是 就 产生 了 一 个 存储 模块 。 但 是 ， 这 些 核 
心 电 路 要 求 有 严格 的 操作 约束 ， 以 使 输出 稳定 并 保留 住 存 储 的 值 。 它 们 在 小 型 和 大 的 时 序 电 
路 中 会 被 用 到 。 小 的 时 序 电路 设计 在 第 5 章 中 进行 介绍 ， 大 的 时 序 电 路 设计 在 第 6 章 介 绍 ， 
CPU 设计 在 第 8 章 中 介绍 。 


110 HAF 


4.2 SRM 


图 4-2 描述 了 SRM RHO MRHAR KSAT r 
wm: s 和 xr。 它们 分 别 作 用 于 置 位 g， 把 gq 置 为 1， 或 复位 gq, Eq 
置 为 0。 信 号 p 和 9g 是 相互 作用 的 ， 作 用 关系 分 别 表示 为 9 = 了 +P， 
p =7T9。 想 要 确定 gq 的 值 ， 就 必须 知道 p 的 值 ， 反 之 亦 然 。 因 5 
此 ， 由 于 p 和 g 的 初 值 不 确定 ， 电 路 的 最 终结 果 应 当 对 以 下 4 种 ”图 4-2 基本 SR 锁 存 器 
情况 进行 分 析 得 知 。 
情况 1: s=0, r=0 
a. 假设 当前 的 gqg=0, iks=0, r=0, 确定 p M q 的 值 。 在 这 种 情况 下 ， 


new 











b. 假设 初始 值 g= 1, iks=0, r=0, 确 





w OO 
5 
wn 
+ 
Q 





> © 








=] 
Ale, 4s=0, r=OW, gq”=0 (未 改变 ), p™=1, 
Auk, 4s=0, r=0 时 ,gq”=1 (又 未 改变 ), p™=0, 
第 1 种 情况 表明 ， 当 s = 0 而 且 r=0 时 , p A qg 的 值 保持 不 变 ， ME p= go 
情况 2: s=0, r=1 
a. (it g=0, iks=0, 7=1。 此 时 ， 














Aue, 4s=0, r= 1 时 , gqg”™”=0 (未 改变 ) ”= 
b. Hiig=1, iks=0, r= 




















p =s+q=0+0=0 
143 dg ”=r+p”=1+0=0，g 发 生变 化 
p” =s+g” =0 +0=1，p 发 生变 化 
gq’ =r+p” =1+1=0 g" 未 发 生变 化 ,p Hq 保持 不 变 


在 这 种 情况 下 ，g 的 值 发 生变 化 ， 但 最 终 保持 稳定 ， 而 且 保 持 为 0。 

第 2 种 情况 表明 ， 无 论 g 的 初 值 是 多 少 ， 当 s = 0, r= 1 时, gq” = 0, p"” = 1。 因 此 ， 
q 被 复位 为 0 (或 者 说 这 个 锁 存 器 锁 存 逻辑 0)， MA p= go 

情况 3s s=1, r=0 

5 和 1 
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qh" =r+p™ =1+0=0 4 发 生变 化 

p™ =s+p™" =1+1=0 PP 和 9 的 值 已 经 稳定 
因此 ， 如 果 s=1, r=0, Wa”=1 (从 0 变 为 1)，p "=0。 
b. (Rif g=1, iks=1, r=0。 











第 3 种 情况 表明 不 论 mee, 4s=1, r=0W, g”=1, p’”=0. Ak, qk 
置 位 为 1 (或 者 说 锁 存 器 锁 存 逻辑 1 )， 而 且 p = 9g。 

情况 4: s=1, r=1 

a. 假 设 qg=0, iks=1, r=1。 











这 种 情况 下 ，g” 和 p” 都 变 为 0 
b. 假 设 qg=1, 让 s=1, r=1。 








qe =r+p = 70 = 0 9 发 生变 化 
p" =s+pe =1+0=0 PP 和 9 现在 保持 稳定 
在 这 种 情况 下 ，g” 和 p” 又 一 次 都 变 为 0。 | 
第 4 种 情况 比较 特殊 ， 它 表明 无 论 4 的 初 值 如 何 ， 当 s = 1, r= 1 时,，g” Mp” 都 变 
AO, 与 其 他 3 种 情况 有 所 不 同 。 与 前 面 3 种 情况 对 比 ， 这 种 情况 使 得 p 和 4 产生 了 矛盾 的 
结果 ， 不 再 使 得 p 和 9g 的 结果 保持 相反 。 这 种 情况 的 矛盾 还 体现 在 : 如 果 使 r 和 s 同时 由 1 
变 为 0， 信号 p 和 9 将 会 振荡 ， 将 同时 变 为 1， 然 后 再 同时 变 为 0， 然后 一 直 这 样 重复 下 去 。 
尽管 在 仿真 中 这 种 振荡 会 一 直 持 续 下 去 (永远 不 会 稳定 )， 但 在 实际 电路 中 这 种 振荡 将 最 终 
停 下 来 。 而 这 个 最 终 的 稳定 结果 将 会 是 随机 的 ，0 或 1， 而 且 满 足 p = 9。 第 4 种 情况 可 以 改 
变 系 统 的 状态 ， 随 机 地 造成 影响 。 因 为 这 个 原因 ， 第 4 种 情况 不 应 当 出 现 。 也 就 是 说 ，r 
s 永远 都 不 要 同时 变 为 1。 
情况 1 ~ 3， 从 男 一 方面 讲 ， 正 好 提供 了 一 个 存储 模块 所 需 的 必要 功能 : 保持 g (第 1 
种 情况 )， 复 位 9 或 存储 0 (第 2 种 情况 )， 置 位 4 或 存储 1 (第 3 种 情况 )， 而 且 p 始终 等 于 g。 
图 4-3 说 明了 SR 锁 存 器 的 最 终 电路 ， 其 中 p 由 gq 代替 。 它 的 状态 表 (也 叫 真 值 表 ) 也 在 
图 中 表示 了 出 来 ， 而 第 4 种 情况 (s = 1,r = 1 ) 被 标记 为 未 使 用 。 在 这 个 表 中 ，g 的 初始 值 
被 表示 为 q， 意 思 是 说 g 在 1 时 刻 的 值 。g 的 新 (下 一 个 ) 值 被 表示 为 gq*'， 意 味 着 g 和 9 的 
稳定 值 。 








Ol 


a) b) 
H4-3 SR 锁 存 器 和 它 的 状态 表 : a) SR 锁 存 器 的 状态 表 ; b) 或 非 门 SR 锁 存 器 


这 个 SR 锁 存 器 电路 在 成 为 一 个 真正 有 用 的 电路 之 前 还 缺少 一 些 特点 : 


eh 
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o 我 们 必须 保证 信号 xr 和 s 不 会 同时 置 高 (换言之 ,第 4 种 情况 不 会 发 生 )。 
o 在 系统 启动 期 间 ， 我 们 必须 可 以 初始 化 4 为 一 个 可 知 的 值 ，0 或 1。 


时 钟 触发 SR 锁 存 器 


时 钟 是 一 个 被 称 为 振荡 器 的 电子 设备 ， 这 个 振荡 器 以 一 定 的 周期 不 断 重复 地 输出 1 和 
0。 它 被 用 于 在 特定 的 时 间 进 行 采样 ， 而 且 当 时 钟 变 为 0 或 变 为 1 时 采样 结束 。 图 4-4 代表 
了 一 个 时 钟 触发 的 SR 锁 存 器 的 电路 。 这 个 时 钟 信号 分 别 和 x、s 信号 进行 了 与 操作 。 由 它 控 
制 在 何 时 xr 和 s 信号 被 允许 去 改变 这 个 核心 电路 的 状态 (图 4-3b), BY 9 和 4 的 值 。 

当 图 4-4 中 信号 clk = 0 时 ,电路 中 G1 和 G2 两 个 
与 门将 会 输出 0, 与 + 和 s 的 值 没 有 关系 。 这 样 让 核心 
SR 锁 存 器 继续 保持 它 的 当前 值 (第 1 种 情况 )。 然 而 ， 
当 clk 变 为 1 时 ，G1 会 输出 + 的 当前 值 ，G2 也 会 输出 
s 的 当前 值 。 这 时 ， 根 据 图 4-3a 中 的 状态 表 可 知 ，” 和 
s 的 值 将 会 改变 核心 SR 锁 存 器 的 状态 。 

图 4-4 的 电路 中 ， 如 果 当 clk = 1 时 ,信号 r+ As 的 值 才 可 以 “进入 ”这 个 核心 电路 ， 则 
这 个 电路 叫 作 高 电 平 SR 锁 存 器 。 同 理 ， 当 clk = 0 时 信号 才能 “进入 ”电路 ， 这 个 电路 叫 作 
低 电 平 SR 锁 存 器 。 图 4-5 描述 了 一 个 有 一 点 时 延 的 高 电 平 SR 锁 存 器 的 场景 ， 在 这 个 场景 
中 假设 信号 s 比 r 的 传播 时 延 更 小 一 些 。 

在 时 间 段 1 中 ,信号 s 和 7 都 在 变化 中 ， 由 于 sx 的 传播 时 延 比 > 更 小 一 些 ， 在 > 仍然 是 
1 的 时 候 ，s 开始 变 为 1。 因 此 如 图 中 所 示 ， 在 时 序 图 的 阴影 部 分 ,，r 和 s 有 一 个 短暂 的 都 为 
1 的 状态 (第 4 种 情况 )。 然 而 ， 由 于 这 个 短暂 的 时 间 内 的 clk = 0，G1 和 G2 两 个 与 门 都 会 
输出 0， 阻 止 了 s = 1 和 r= 1 进入 这 个 核心 电路 ， 因 此 ， 这 个 锁 存 器 保持 了 它 的 当前 状态 ， 
没有 受到 影响 。 

在 时 间 段 2 中 ， 当 clk=1, r=0, s=1 时， 这 两 个 与 门 会 把 r=0 和 s=1 送 入 这 个 核心 
电路 中 ,使 g 变 为 1。 在 这 个 时 间 段 中 ， 我 们 称 这 个 锁 存 器 对 它 的 输入 信号 和 进行 采样 。 





图 4-4 高 电 平 SR 锁 存 器 


之 前 | 之 后 i 

r 

| ir 中 意 想不到 i 

9 ' ! ! ”的 变化 ; 

ee 

dlk 1 1 1 1 
保持 采样 保持 采样 保持 

q | ! ! | 
1 2 3 4 5 


时 间 段 
图 4-5 SR 锁 存 器 时 序 举 例 
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在 时 间 段 3 中 ， 当 clk = 0 (保持 ) IN, BUA ARR qd = 1， 结 果 保持 为 1。 最 后， 在 时 间 
段 4 中 ， 当 clk = 1 而 且 锁 存 器 正在 采样 时 ，r 值 一 个 瞬时 的 变化 (例如 电子 脉冲 ) 使 q 值 不 
可 预料 地 变 为 了 0。 由 于 这 个 原因 ，r 和 s 的 值 在 每 一 个 采样 期 间 都 必须 保持 稳定 ， 这 是 SR 
锁 存 器 的 一 个 缺点 。 

SR 锁 存 器 的 男 外 一 个 缺点 是 它 需 要 两 个 输入 端 (r 和 s) 进行 控制 。 在 现代 集成 芯片 (ICs) 
的 今天 尤其 如 此 ， 因 为 线路 也 会 占用 芯片 的 空间 。 现 代 的 集成 芯片 使 用 成 千 上 万 的 锁 存 器 来 生 
成 寄存 器 。 如 果 每 一 个 锁 存 器 都 需要 两 个 输入 端 去 控制 ， 这 将 占用 两 倍 的 空间 去 连接 这 个 端口 。 

由 SR BAREIS D 锁 存 器 解决 了 这 些 缺 点 。D 锁 存 器 将 在 下 一 节 中 进行 讨论 。 

由 于 输入 信号 r+ Al s 仅 在 采样 时 间 段 内 能 够 对 核心 电路 产生 影响 ， 它 们 分 别 被 称 为 同步 复 
位 和 同步 置 位 信号 。 然 而， 独立 于 时 钟 信号 ， 异 步 地 初始 化 锁 存 器 为 q = 0 或 g = 1 通常 是 有 必 
要 的 。 图 4-6 表示 了 一 个 带 有 异步 重 置 和 异步 预 置信 号 的 时 钟 触发 SR 锁 存 器 。 这 些 信号 是 直接 
接 到 或 非 门 的 输入 信和 号， 而 且 ， 当 每 一 个 有 效 时 ， 都 可 以 独立 地 改变 gqg 和 g 的 值 。 当 reset = 1, 
preset = 0 时，g 变 为 0, 5r, s 和 clk 信号 的 状态 无 关 。 同 样 ， 当 preset = 1，reset = 0 时 ，9 
ARH lo reset 和 preset 信号 不 能 同时 有 效 ; 只 能 有 一 个 有 效 的 信号 将 9 的 值 初始 化 为 0 或 1。 

与 非 类 型 

图 4-6 中 或 非 类 型 的 SR 锁 存 器 很 容易 理 aE 
解 ， 因 为 它 使 用 了 高 电 平 有 效 信 号 。 一 个 等 效 
的 与 非 类 型 的 锁 存 需 在 图 4-7 中 描述 了 出 来 ， 并 q 
且 带 有 异步 的 低 电 平 有 效 的 重 置 ( _reset 或 T) 
信号 和 预 置 (_ prese 或 s) 信号 。 注 意 ， 与 或 
非 类 型 相 比 ， 与 非 类 型 锁 存 器 中 r 和 s 的 意义 
有 所 不 同 ; 现在 s 信号 是 和 g 信号 保持 一 致 ，r aE 
信号 和 9 信号 你 持 一 致 。 这 个 图 同样 是 一 个 时 ”图 4-6 带 有 异步 重 置 和 预 置信 号 的 SR 锁 存 器 
钟 触发 SR 锁 存 器 的 代表 ， 其 中 输入 端 c 代表 
了 “时 钟 ”"。 除 非 男 有 说 明 ， 否 则 “ SR 锁 存 器 ”这 个 术语 仅 代 表 了 时 钟 触发 SR 锁 存 器 ， 而 
不 论 低 电 平 还 是 高 电 平 有 效 。 


_preset (BK_s) 


an 
Ol 


clk 


Ol 





_reset (或 _1) 
a) SR 锁 存 器 ， 与 非 类 型 b ) SR 锁 存 器 符号 


4-7 高 电 平 SR 锁 存 器 : a) 仅 有 与 非 门 的 SR 锁 存 器 ; b) SR 锁 存 器 逻辑 符号 


43 D 锁 存 器 
SR 锁 存 器 通过 消除 保持 选项 (第 1 种 情况 ) 可 以 转换 为 D 锁 存 器 ， 这 种 选项 中 的 s 和 
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r 信 号 都 是 0。 在 同步 模式 中 ， 除 了 时 钟 信 号 ，D 锁 存 器 仅 需 要 一 个 输入 信号 dg 来 控制 。 这 
个 可 以 通过 把 4 连 到 ss 上， 把 qd 连 到 x 上 来 实现 ， 如 图 4-8 所 示 ; 4 代表 了 数据 。D 锁 存 器 仅 
工作 在 两 种 模式 中 ， 当 d= 1 时 同步 地 置 位 9 (gq = 1 ) 或 者 当 d= 0 时 同步 地 复位 gq (q=0). 
当时 钟 信号 处 于 采样 时 期 ， 信 号 g 始终 等 于 d。 然 而 ， 就 像 SR 锁 存 器 一 样 ， 当 时 钟 信号 处 
于 “ 关 ” 状 态 不 进行 采样 时 ，D MAar 4 的 值 。 


x 


a) D 锁 存 器 电路 b ) D 锁 存 器 符号 
4-8 D 锁 存 器 的 电路 和 逻辑 符号 


d 


4.4 锁 存 器 的 缺陷 


无 论 SR 锁 存 器 还 是 D 锁 存 器 都 有 一 种 缺陷 ， 在 大 多 数 的 时 序 电路 设计 中 限制 了 它们 的 
应 用 。 当 两 个 或 多 个 锁 存 器 在 同一 个 时 钟 信号 下 工作 时 ， 它 们 的 4 信号 中 没有 可 以 依赖 的 数 
据 存 在 。 试 想 在 同一 个 时 钟 信号 工作 下 的 两 个 或 多 个 锁 存 器 ， 在 这 种 情况 下 ， 这 些 锁 存 器 中 
的 dq 输入 信号 没有 一 个 可 以 成 为 任何 9 或 4 的 关系 值 。 否 则 ， 一 种 称 为 信号 延伸 的 情况 将 会 

导致 电路 不 能 正常 工作 。 

例如 ， 如 图 4-9 所 示 两 个 高 电 平 D 锁 存 器 。 这 两 个 锁 存 器 都 在 同一 个 时 钟 信号 clk FT 
作 。 这 种 情况 下 ，4qo 的 值 取决 于 9 (PI do = qi )。 这 个 电路 本 被 作为 一 个 两 位 右 移 的 寄存 器 
使 用 ,但 它 不 能 工作 。 每 次 当 clk 由 0 变 为 1 时， 由 信和 号 q 和 go 所 决定 的 寄存 器 的 初 值 会 
变 为 它 的 新 值 ， 即 agi’ =0, go™ = qi。 





初 值 : 1 0 
最 终 值 : 0 0 


4-9 一 种 错误 性 设计 的 两 位 右 移 寄存 器 的 图 解 ; 没有 可 用 的 锁 存 器 


为 了 解释 这 些 ， 假设 通过 使 用 低 电 平 有 效 的 reset 信号 复位 锁 存 器 ， 将 它们 的 g 值 变 
为 0 之 后 ， 再 通过 连接 到 锁 存 器 1 上 的 低 电 平 有 效 异 步 置 位 输入 端 (_s) 将 gi 置 位 为 1。 这 
样 就 实现 了 相连 的 值 9 和 go, RÆ qiqo = (10);,， 在 图 中 所 示 作 为 qi 和 qo 的 初 值 。 现 在 当 
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clk 由 0 ZEA LAY, qiqo 的 下 一 个 值 应 当 是 (01),， 意 味 着 di = 0 从 左 端 被 右 移 到 内 部 。 然 而 
锁 存 器 将 不 会 实现 这 些 。 

具体 地 说 ， 就 是 当 clk 变 为 1， 两 个 D 锁 存 器 将 同时 对 它们 的 输入 端 进行 采样 ， 将 它们 
的 当前 值 qa = 1A go" =0 改变 为 qi =d = 0 M go =h=qi =1。 但 是 如 果 clk 
保持 为 1，D 锁 存 絮 会 继续 对 它们 的 输入 端 进行 采样 ， 使 得 qM 赋值 给 qo", BURA WA 
FE qiqo = (00)，,， 而 不 是 预想 的 (01),。 在 这 种 情况 中 ， 如 果 clk 长 时 间 保 持 为 1， 信 号 di = 0 
延伸 ， 导 致 do 变 为 0。 

通 篆 而 言 ， 通 过 使 用 需要 依赖 性 输入 的 锁 存 器 进 行内 部 相连 来 实现 独立 性 的 控制 是 不 可 
能 的 ， 因 此 ， 在 很 多 重要 的 时 序 电路 设计 中 是 不 能 使 用 的 ， 比 如 移 位 寄存 器 和 控制 单元 。 能 
人 够 防止 这 种 信号 延伸 的 电路 叫 作 触发 需 。 


4.5 D 触发 器 


如 图 4-10 中 DD 触发 器 所 示 ， 触 发 器 可 以 由 两 个 相连 的 锁 存 器 设计 而 成 。 在 每 一 个 时 钟 
电 平 中 ， 只 有 一 个 锁 存 器 对 它 的 输入 信和 号 进行 采样 ， 另 一 个 锁 存 器 保持 它 的 当前 值 。 这 两 个 
锁 存 器 工作 起 来 就 像 一 个 双 门 人 口 系统 ， 就 像 很 多 建筑 中 用 到 的 那样 。 任 何 时 刻 都 只 有 一 
个 门 是 打开 的 ， 另 外 一 扇 门 处 于 关闭 状态 。 一 个 人 要 进入 这 个 建筑 之 中 ， 必 须 先 穿 过 第 一 扇 
门 ， 再 穿 过 第 二 刷 门 。 在 这 个 图 中 ， 这 两 个 锁 存 器 分 别 被 标记 为 4(4 门 ) 和 B(B 门 )。 它 
们 的 输入 输出 分 别 被 记 为 4.4、4.9、B.s 等 。4 和 B 都 是 高 电 平 有 效 锁 存 器 ,但 工作 在 互补 
的 时 钟 电 平 下 。4 锁 存 器 是 一 个 D 锁 存 器 ，B 锁 存 器 是 一 个 SR 锁 存 器 。 


初级 输入 (d) 


B 锁 存 器 
正在 采样 


A 锁 存 器 
正在 采样 





4-10 D 触发 器 


当 clk = 1，clk = 0 时 ， 锁 存 器 4 不 会 进行 采样 (也 就 是 AIXA), 保持 它 的 g 值 ,4.g。 
这 段 时 间 里 ， 初 级 输入 4 (A.d=d) 的 变化 不 会 改变 Aq 和 4. 9 的 值 。 这 两 个 信号 分 别 连接 
到 了 B 锁 存 器 的 输入 端 B.s 和 B.r， 因 此 ， 如 果 4 发 生变 化 ， 即 使 clk = 1 时 ，B 锁 存 器 正在 
采样 (也 就 是 B 门 打 开 )，B.g 也 不 会 发 生变 化 。 

然而 ， 当 clk 由 1 变 为 0，clk 由 0 变 为 1 时 ， 这 两 个 锁 存 器 交换 模式 ; 锁 存 器 4 开始 
采样 4.4 (也 就 是 4 门 打开 )， 锁 存 器 B 停止 采 样 4.9 (也 就 是 B 门 关闭 ); A, SIFA B 
保持 B.9 值 。 在 这 段 时 间 里 ， 初 级 输入 4 的 任何 变化 将 会 改变 4.9， 但 不 会 改变 B.g。 因 
此 ， 这 两 个 锁 存 器 工作 在 不 同 的 时 钟 电 平 下 ， 阻 止 了 信和 号 延伸 。 只 有 在 clk 再 次 由 OBA 
1 时 ， 锁 存 器 4 的 输出 才 可 以 影响 锁 存 器 如 的 输出 。 所 以 ， 触 发 器 需要 一 个 时 钟 边沿 进行 
控制 。 

在 这 个 图 中 ， 当 clk 信号 由 1 变 为 0 再 变 为 1( 一 个 1-0-1 的 变化 ) 时 ， 触 发 器 进行 采样 ， 
然后 保存 它 的 初级 输入 4 作为 它 的 初级 输出 B.g。 
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4.5.1 选择 电路 


图 4-11 表示 了 一 个 不 同 的 总 门 数 更 少 的 也 
触发 器 。 这 个 D 触发 器 工作 起 来 就 像 图 4-10 中 
所 示 的 那样 。 当 clk 进行 1-0-1 变化 的 时 候 ， 它 
对 初级 输入 4 进行 采样 。 特 别 地 ， 当 clk H 1% 
为 0 时 ， 信 和 号 3 和 F7 变 为 1， 触发 器 保持 9g 值 ， 不 
受 当 前 4 值 的 影响 。 当 clk 由 0 变 为 1 时， 触发 
a Jt eat d 进行 采样 。 如 果 d = 1， 那么 s = 0， 
r=1, 9 将 变 为 1; 否则 ， 如 果 d= 0， 那 么 s = 1， 
r= 0,9 将 变 为 0。s 和 7 的 值 在 clk 的 下 一 个 1-0-1 
变化 到 来 之 前 保持 不 变 。 图 4-11 带 有 更 少 门 电路 的 选择 D 触发 器 


4.5.2 ”操作 规范 


图 4-10 中 锁 存 器 4 MIB THE ( 即 采样 ) 在 不 同 的 时 钟 电 平 下 《0 或 1)。 当 一 个 锁 存 天 
正在 采样 〈 门 开启 ) 时 ， 另 一 个 锁 存 器 始终 处 于 不 采样 的 状态 〈 门 关闭 )。 只 有 当 clk 出 现 
0-1 变化 时 ， 被 采样 得 到 的 输入 信号 d 才 会 通过 锁 存 器 4 BAMA a B (BI B.9)， 此 时 是 正 
在 采样 的 锁 存 器 4 要 停止 采样 ， 锁 存 器 B 开始 采样 4.9。 注 意 现在 的 锁 存 器 4 已 停止 采样 ， 
即使 4 发 生变 化 ，4.q 也 不 会 再 改变 。 锁 存 右 4 下 一 次 开始 采样 是 在 clk 出 现 1-0 变化 的 时 
TR, IOI BARRE B 停止 采样 。 

D ALEAT, KAEMA Bt ei M Bl 75 — PS EB CAE, AN ee FEY BP e P 
E; AI, DARRAREN RAZ AFR PP 1-0-1 AYE ACR VALE SR AC aE d 进行 采样 (在 
1-0 变化 时 4.9 = d) 并 保存 为 q (在 0-1 变化 时 B.g = Aq, ERR, AKL), RAE RM 
作 正 触发 锅 或 上 升 沿 触发 需 。 否 则 ， 如 果 时 钟 0-1-0 的 变化 可 以 让 触发 希 对 4 进行 采样 (在 
0-1 变化 时 4.g = d) 并 保存 为 q (在 1-0 变化 时 B.q = Aq, HAR, KEF), AA ERY 
作 负 触发 句 或 下 降 沿 触发 器 。 如 图 4-12 所 示 ， 边 沿 触发 器 的 时 钟 输入 端 被 一 个 右 箭头 符号 
作 了 标记 (>)， 而 且 ， 如 果 是 下 降 沿 触发 器 ， 还 会 有 一 个 小 圆圈 。 


“fn 和 


上 升 沿 触发 器 下 降 沿 触发 器 
图 4-12 ”上升 沿 和 下 降 沿 触发 器 符号 





4.5.3 建立 和 保持 时 间 


与 诸如 SR 触发 耸 之 类 的 器 件 不 同 ,D 触发 硕 是 由 高 电 平 和 低 电 平 的 锁 存 器 设计 而 成 〈 但 
不 被 今天 所 用 )， 它 有 一 个 优点 ， 就 是 当 锁 存 器 4 (第 一 个 锁 存 器 ) 仍 在 采样 时 ， 人 允许 它 的 4 
辆 入 端 发 生变 化 。 唯 一 的 要 求 就 是 4 信和 号 能 够 趋 于 稳定 ， 而 且 在 时 钟 发 生变 化 时 能 保持 短暂 
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的 稳定 。 151 

例如 ， 观 察 图 4-10 中 上 升 沿 触发 的 触发 器 。 当 clk = 0 时 ， 锁 存 器 B 保 持 B.q AE (也 
就 是 B 门 关闭 )， 而 且 因 为 clk 是 1， 锁 存 器 4 采样 4.4 ( 即 4 门 打开 )。 此 时 ， 当 clk 出 现 上 
升 沿 (0-1) 变化 成 为 1 时 ，clk 和 clk 都 保持 为 1， 直到 ck 经 过 非 门 短暂 的 传播 延 时 变 为 0， 
并 使 锁 存 器 A 停止 对 d 进行 采样 ( 即 4 门 关 闭 )。 在 这 个 短暂 的 时 间 里 ， 每 个 锁 存 器 都 分 别 
对 它们 的 输入 进行 采样 。 

因此 ， 为 了 让 D 触发 器 能 在 这 段 时 间 内 正常 工作 ，qd 必须 在 clk 由 0 变 为 1 之 前 保持 
短 时 间 的 稳定 一 一 因此 锁 存 器 4 中 的 s 和 z 信 号 才能 稳定 ， 而 且 为 了 保持 信号 * 和 7 的 稳 
定 ， 在 clk 变 为 1 之 后 ，qd 也 必须 保持 短 时 间 的 稳定 。 这 是 所 需要 的 ， 因 为 信号 clk 和 clk 不 
是 同时 发 生变 化 ， 这 就 导致 了 锁 存 器 4 经 过 一 个 延 时 (图 4-10 ) 之 后 才能 停止 采样 (“ 关 
门 ”)。 在 clk 的 0-1 变化 之 前 和 之 后 d 必须 保持 稳定 的 时 间 和 分 别 被 称 为 触发 器 的 建立 时 间 
(to) 和 保持 时 间 (ms )。 对 于 一 个 下 降 沿 触 发 器 来 说 ，4d 必须 在 时 钟 1-0 变化 之 前 和 之 后 保持 
稳定 。 

如 下 面 两 张 图 中 所 示 ， 建 立时 间 和 保持 时 间 的 无 法 满足 会 让 D 触发 器 变 得 不 稳定 一 一 
众所周知 的 亚 稳 态 情况 。 在 图 4-13a 中 ,信号 d 发 生变 化 与 clk 由 0 到 1 的 变化 是 如 此 接近 ; 
因此 ， 它 破坏 了 触发 器 的 建立 时 间 ， 导 致 B.g 和 B. KERB. Ma—-AwH, FA 4-13b 
中 ， 因 为 dg 在 clk 变 为 1 之 前 进入 了 稳定 状态 ， 至 少 在 时 间 上 = re， 触 发 器 正确 地 锁 存 d, 
使 得 B.g=d, B.q=do 


建立 时 间 不 足 i 


| nr: | i nel 
ee i 
ae aa || ens 
一 > e > 建立 时 间 (ra 
b) 


图 4-13 DD 触发 器 时 间 : a) 建立 时 间 不 足 ; b) 建立 时 间 充 分 


同样 ， 在 图 4-14a 中 ， 当 ck 由 0 变 为 1 之 后 ，& 过 早 地 发 生变 化 ， 破 坏 了 触发 器 所 要 
求 的 保持 时 间 。 这 同样 会 使 信号 B.g M B. 9g 产生 振荡 。 从 另 一 方面 讲 ， 在 图 4-14b 中 , Æ L152 
clk 变 为 1 之 后 d 继续 保持 稳定 ， 触 发 器 工作 正常 ， 也 使 得 B.g =d, B.J = d。 保 持 时 间 (th) 
是 指 在 clk 变 为 1 之 后 4 必须 保持 稳定 的 时 间 和 。7h 必须 大 于 或 等 于 时 钟 到 9 (Tea) 的 延 时 ， 
这 是 触发 器 能 够 稳定 和 输出 最 终结 果 B.g 和 .9 所 要 求 的 时 间 。zre 也 被 称 为 时 钟 到 输出 的 时 
[E] (reo)。 
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保持 时 间 不 足 l 


. 保持 时 间 充 分 


Font aac T 
a | 
* p 


-> < 一 时 钟 到 q 的 时 间 (Teg) 
= < 保持 时 间 (The) > Teg 


图 4-14 DD 触发 器 时 间 : a) 保持 时 间 不 足 ; b) 保持 时 间 充 分 


糟糕 的 保持 时 间 

之 前 讨论 过 的 与 4 和 clk 相关 的 信号 源 的 建立 和 保持 时 间 是 在 触发 器 内 部 ， 而 不 是 在 
集成 芯片 的 边缘 或 片 内 的 一 个 模块 。 这 种 建立 和 保持 时 间 也 可 以 由 芯片 内 或 模块 边缘 的 数 
据 和 时 钟 源 决定 。 图 4-15 描述 了 一 个 片 内 触发 器 ， 在 芯片 边缘 有 5 个 接口 信号 ， 分 别 是 d, 
clock、9g， 还 有 低 电 平 有 效 的 _preset 和 reset 信号 。 就 像 图 中 所 示 ， 在 这 种 情况 下 ， 这 些 
输入 信和 号 在 经 过 一 些 信 号 线路 延迟 之 后 将 会 影响 到 这 个 触发 器 。 同 样 ，9 作为 这 个 触发 需 的 
输出 ， 在 经 过 芯片 边缘 的 信号 线路 延迟 之 后 将 变 为 有 效 。 另 外 ， 这 些 到 达 触 发 器 的 线路 延 
迟 有 可 能 会 不 一 样 。 因 此 ， 在 这 类 情况 下 ， 时 序 图 有 可 能 与 图 4-13 和 图 4-14 中 描述 的 都 不 
一 -和 


_preset 





_reset 
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图 4-16 描述 了 一 个 D fh aS EE AP A, NA AC AE AL FE Altera 的 现场 可 编程 门 
陈列 (FPGA) 上 进行 了 综合 。 所 有 的 输入 输出 信号 一 一 4、reset、preset、clock、g 和 not_ 
4 一 一 都 在 FPGA 的 边缘 ,它们 被 相应 地 连接 到 FPGA 内 部 触发 器 的 输入 输出 上 ， 并 带 有 一 
定 的 延迟 。 就 像 图 中 所 示 ， 尽 管 最 初时 &= 1， 在 250.0ns (一 个 参考 点 ) 处 时 钟 上 升 沿 之 前 
的 2.902ns 时 发 生变 化 ， 变 为 了 0， 触发 器 仍然 可 以 取 到 gg = 1， 然 后 在 时 钟 上 升 沿 之 后 的 





POS: HORR is? 





5.922ns 处 改变 9 的 值 为 1。 在 这 种 情况 下 ， 考 虑 到 必 片 边缘 的 输入 信号 ， 我 们 称 这 个 触发 
名 有 一 个 糟糕 的 保持 时 间 。 触 发 侨 因 为 发 片 的 边缘 也 有 一 个 ra= 5.922ns HIER, ÆR 4-17 
中 ， 这 个 触发 器 的 仿真 波形 描述 了 相差 3.489ns 的 糟糕 的 保持 时 间 。 

同样 ， 如 图 4-15 中 所 示 ， 考 虑 到 信号 dM clock 都 在 芯片 的 边缘 ， 这 个 芯片 会 出 现 一 
个 糟糕 的 建立 时 间 也 是 有 可 能 的 。 在 这 种 情况 下 ， 考 虑 到 时 钟 的 0-1 变化 发 生 在 芯片 的 边 
缘 ，d 的 建立 时 间 可 能 慢 ， 但 是 仍然 能 够 及 时 到 达 ， 满 足 触发 器 所 要 求 的 建立 时 间 。 刀 也 有 
可 能 会 连接 到 一 个 组 合 逻辑 电路 上 ， 而 且 这 个 组 合 逻 辑 电路 有 一 个 输出 连接 到 了 这 个 触发 需 
的 D 输 入 上 。 在 这 种 情况 下 ， 信 号 4 影响 触发 侨 时 序 的 因素 包括 信号 的 延 时 和 这 个 组 合 逻 
辑 电路 的 传播 延 时 。 
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4-17 在 -3.489ns 处 有 糟糕 的 保持 时 间 的 D 触发 器 时 序 图 
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mA, FPGA 或 者 专用 集成 芯片 (ASIC) 也 可 能 包括 固定 和 预制 的 电路 模块 。 例 如 ， 一 
个 FPGA 芯片 包含 了 图 4-1 中 的 电路 ， 即 预制 的 CLA 加 法 器 模块 。 另 外 ， 这 个 模块 可 能 包 
含 一 些 内 部 时 钟 信号 的 延 时 。 这 样 ， 考 虑 到 它们 边缘 的 输入 信号 ， 这 些 模块 可 能 会 有 糟糕 的 
建立 时 间或 保持 时 间 。 我 们 已 经 知道 ， 当 预制 模块 糟糕 的 建立 /保持 时 间 被 HDL 仿真 软件 
模块 化 ， 我 们 可 以 得 到 更 精确 的 时 序 仿真 图 。 


46 无 相位 差 的 时 钟 频率 估计 


图 4-18 中 描述 了 操作 DD 触发 右 所 需 的 最 小 的 时 钟 周期 (+)。 这 个 周期 是 时 钟 一 次 循环 
的 时 间 ， 它 包括 了 时 钟 是 0 和 时 钟 是 1 的 时 间 总 和 。 这 个 周期 是 由 信号 4 的 最 大 传播 时 延 
(tpa-max)， 时 钟 到 4 的 最 大 时 延 (toq- max) 和 触发 右 的 建立 时 间 (ts-max) 计算 而 得 。 


时 钟 到 q 的 最 大 时 延 (rn 一 一 x 一 建立 时 间 (7) 
I'O EMERE amd “| 


| | 
es 4 


l T- l 
一 个 时 钟 周 期 
4-18 时钟 周期 与 不 同时 延 之 间 的 关系 


公式 〈4-1 ) 用 来 计算 估计 的 最 小 时 间 周 期 。 这 个 估计 的 周期 不 考虑 第 5 章 介 绍 的 与 时 
钟 相位 差 相 关 的 一 系列 电路 问题 。 
a ( 4-1 ) 
AK (4-2) 描述 了 最 大 的 时 钟 频 率 ， 即 每 秒 的 时 钟 周期 数目 E), th ze. 
它 是 1 秒 内 时 钟 循环 的 次 数 。 


fS ARORA (4-2) 


典型 地 ， 较 大 的 频率 值 被 称 为 千 或 干 赫 兹 (KHz) ; 兆 或 兆赫 兹 (MHz) ; 千 兆 或 二 赫兹 
(GHz)。 分 别 是 指 1 秒 钟 内 时 钟 周期 的 数目 为 1 千 次 、1 百 万 次 和 10 亿 次 。 


4.7 FR Oc ae ie BE 


一 个 典型 的 复杂 的 数字 电路 包括 成 千 上 万 的 触发 器 。 所 有 这 些 触发 器 不 是 在 同一 时 刻 都 
要 操作 (采样 )。 有 些 触发 器 是 独立 的 操作 ， 也 有 些 触 发 器 是 作为 一 个 组 同时 被 操作 。 例 如 ， 
一 个 有 16 个 32 位 寄存 器 的 处 理 器 ， 它 含有 512 (16x32) 个 触发 器 。 我 们 说 由 一 组 32 个 
触发 器 组 成 的 32 位 寄存 器 将 会 在 同一 时 刻 被 同时 选中 ， 去 存 取 一 个 新 产生 的 32 位 的 结果 ， 
例如 ， 一 个 加 法 器 执行 一 条 加 法 指令 产生 的 结果 。 因 此 ， 在 一 个 特定 的 时 钟 内 ， 一 个 用 来 选 
择 一 个 触发 器 或 一 组 触发 器 所 需 的 额外 的 控制 信号 是 必需 的 。 

如 图 4-19 描述 了 一 个 DD 触发 器 的 设计 ， 并 带 有 一 个 使 能 信号 e 用 来 控制 一 个 2-1 选择 
锋 。 当 e = 0 时， 选择 器 选择 信号 9， 使 得 触发 器 重新 加 载 gq 而 保持 原 有 的 值 。 当 e = 1 时 ， 
选择 器 选择 输入 信号 d_ in， 使 得 触发 器 加 载 信号 ， 改 变 4 的 值 为 d_ in。 我 们 说 ， 当 e = 1 时 
这 个 触发 器 被 使 能 或 被 选择 ; 当 e = 0 时 这 个 触发 器 被 关 掉 或 不 被 选择 。 


aR eh BRB 121 





a ) 带 有 使 能 的 D 触 发 器 电路 b) 市 有 使 能 的 D 触 发 器 符号 
4-19 带 有 使 能 信号 的 D 触发 器 电路 及 它 的 符号 


4.8 ”其 他 触发 器 

历史 中 一 种 曾 比较 有 名 的 触发 器 是 JK 触发 TET ee eo 
器 。 如 图 4-20a 中 它 有 两 个 输入 信号 7/ 和。 图 s E 
中 ， 信 号 SET 和 CLR 分 别 表示 高 电 平 异步 的 预 ns 
置 和 重 置信 号 。 当 输入 信号 /和 大 都 是 1 时 ， 触 
发 硕 的 输出 产生 振荡 ， 即 每 个 时 钟 周 期 发 生 9 变 
为 5，5 变 为 9。 王 触发 器 的 缺点 是 需要 两 个 控 ate 
制 信号 。 然 而 ， 通 常情 况 下 使 用 JK 触发 器 的 电 cae 


路 有 一 个 优点 ， 相 对 于 DD 触发 器 的 & 信 号， 信 
号 上 和 大 使 用 更 简单 的 电路 设计 。 一 个 边沿 触发 
的 下 触发 硕 可 以 由 一 个 D 触发 器 设计 而 成 ， 如 图 4-20 ”其 他 类 型 的 触发 器 

图 4-21 所 示 。 

图 4-20b 表示 了 男 外 一 个 被 称 为 T 触发 器 的 触发 表 。 这 个 触发 器 由 一 个 J 触发 器 将 其 
输入 端 / 和 大 连 到 一 个 简单 的 信号 上 上 设计 而 成 ， 这 个 信号 1 代表 了 振荡 。 一 个 T 触 发 器 仅 
表现 了 两 种 功能 : 保持 它 的 当前 状态 (9) 或 振荡 。 如 果 t= 0，T 触发 器 保持 它 的 值 Y。 如 果 
1= 1， 它 的 输出 振荡 : 每 个 时 钟 周 期 内 都 会 发 生 gq 变 为 9，9g 变 为 q。T 触发 器 类 似 于 DD 触发 
谷 ， 也 有 一 个 优点 就 是 仅 需 要 一 个 简单 的 输入 信号 (1) 去 同步 地 预 置 或 重 置 它 的 g 值 。 

通 稼 情况 下 ， 任 何 触发 器 都 可 以 系统 地 被 其 他 触发 器 设计 实现 。 例 如 ， 就 像 许 多 其 他 的 
FFER, JK 触发 器 的 动作 可 以 由 一 个 有 限 状 态 图 (FSD) 来 表示 。 有 限 状 态 图 和 它 的 实现 
将 会 在 第 5 章 中 介绍 ， 即 我 们 所 知 的 有 限 状态 机 。 








图 4-21 边沿 触发 的 JK 触发 器 的 电路 图 
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4.9 硬件 描述 语言 模型 


例 4-1 中 用 Verilog 描述 了 一 个 高 电 平 触发 的 DD 触发 器 行为 模块 ， 这 个 D 触发 器 带 有 
异步 低 电 平 触发 的 _reset 和 preset 信号 。 在 锁 存 器 和 触发 器 中 ， 非 阻塞 赋值 或 并 行 赋值 运 
算 符 ”<=” 保 证 了 同一 个 时 钟 下 的 多 个 锁 存 器 和 触发 需 的 时 钟 同步 。 示 例 中 “always” 块 
的 敏感 信号 表 中 有 4 个 信号 clock, _reset, _preset 和 和 4d。 在 这 个 描述 中 ，_reset RMT 
了 最 高 的 优先 级 ，clock 的 优先 级 最 低 。 当 reset = 1 (信号 无 效 )， preset = 1 (信和 号 无 效 )， 
clock = 1 时 ， 只 要 clock 的 值 一 直 保持 为 1 (采样 电 平 )， 信 号 d 的 变化 将 会 影响 信号 q 的 变 
化 。 这 段 Verilog 代码 在 clock = 0 时 有 一 个 缺少 的 “else” 状 态 ， 暗 示 了 当 clock = 0 时 锁 存 
ji -je 

一 个 高 电 平 触发 ， 异 步 低 电 平 重 置 ( reset) 和 低 电 平 预 置 (_ preset) 的 D fh 
ee 正如 输出 结果 中 所 示 ， 
在 仿真 时 间 为 3 个 单位 时 , clock = 0, d=1, q Ps 0， 意 味 着 锁 存 器 如 所 想 的 那样 保 
持 了 它 的 0 状态 。 在 时 间 为 4 个 单位 时 ，clock =1, dg = 1, 9g 在 意料 之 中 变 为 了 1。 但 是 在 
时 间 为 5 个 单位 ，clock 的 值 仍 为 1 时 ,信号 ren 0， 此 时 9 BEAT AMARA TO, FARE 
ST MAFAE NTT ARE 

HDL 模型 : 


module d_latch 





( 


input clock, reset, preset, d, 
output reg q, 
output nq 


j? 


assign nq = ~q; 
always@ (clock or !_reset or !_preset or d) 
begin 

if(! reset) 


q <= 0; 
else if(! preset) 
q <= 1 
else if (clock) 
q <= d; 
end 
endmodule 
测试 模块 : 


‘include "d latch.v" 

module tester (); 

reg clock, _reset, _preset, d; 

wire q, nq; 

d latch dlatchi (clock, _reset, preset, d, q, nq); 
initial begin 

Smonitor("%4d clock = %b reset = tb, preset = tb d = %b q = 
tb nq = *b\n", $time, clock, _reset, preset, d, q, nq); 
end 

initial begin 

clock = 0; _reset = 1; _preset = 1; 

#1 reset = 0; 
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#1 reset = 1; 
wi a= is 

#1 clock = 14 
7. Oo = ps 

#10 $finish; 
end 

endmodule 


仿真 输出 : 


Chronologic VCS simulator copyright 1991-2009 
Contains Synopsys proprietary information. 
Compiler version D-2009.12; Runtime version D-2009.12; 


0 clock = 0 reset = 1, _preset = 1 d=xqz=xng=x 
1 clock = 0 reset = 0, _preset = 1 d=xq=0O0ng=l 
2 clock = 0 reset = 1, _preset = 1 d=xq=0O0ng=l1 
3 clock = 0 reset = 1, _preset = 1 d=1q=0nqg=1 
4 clock = 1 reset = 1, _preset = 1 d=lq=i1ng=0 
5 clock = 1 reset = 1, _preset = 1 d=0q=0nq= 1 

Sfinish called from file "tester.v", line 21. 

Sfinish at simulation time 15 

VCS 仿真 报告 

Time: 15 

CPU Time: 0.460 seconds; Data structure size: 0.0Mb w 


例 4-2 中 描述 了 一 个 Verilog D fh RAEI AT ARR, H PKS posedge 或 negedge 分 
别 表 示 了 上 升 沿 或 下 降 沿 触发 的 动作 。 这 个 Verilog 代码 描述 了 一 个 上 升 沿 触发 的 DD 触发 
人 种， 并 带 有 异步 低 电 平 触发 的 reset 和 preset 信号 ， 而 且 reset 信号 有 较 高 的 优先 级 。 这 
两 个 信号 异步 地 控制 电路 ， 因 为 它们 作为 部 分 信号 被 列 在 “always” 块 的 敏感 信号 表 中 ; A 
则 ， 如 果 它 们 没有 出 现在 敏感 信号 表 中 ， 它 们 将 仅 在 clk 发 生 上 升 沿 变 化 (在 这 种 情况 下 ) 
时 才能 同步 地 控制 电路 。 

一 个 上 升 沿 触发 ,之 有 异步 低 电 平 有 效 reset 和 _preset 信号 而 且 有 高 电 平 使 能 
(e) 信号 的 D 触发 右 行 为 模块 、 一 个 测试 模块 ， 还 有 仿真 结果 输出 都 在 此 一 一 列 出 。 注 意 ,在 
这 个 模块 中 ,信号 4 和 e 没 有 包含 在 “ always” 块 的 敏感 信号 表 中 ; 如 此 一 来 ,它们 将 会 同步 
地 影响 D fhe. “4 reset=1， preset= 1 时 ， 如 果 触 发 器 已 被 使 能 (e = 1)， 时 钟 的 0-1 变化 将 
会 使 触发 器 加 载 数据 ， 使 得 9 = d。 否 则 ， 如 果 e = 0， 触 发 器 被 关闭 ，g 的 值 将 会 保持 不 变 。 当 
时 钟 没 有 发 生 0-1 变化 时 和 触发 器 9 的 值 也 会 保持 不 变 。 也 就 是 说 ， 无 论 ck 是 0 还 是 1， 信 和 号 
_reset 的 1-0 电 平 变化 会 异步 地 复位 g (gq = 0)， 而 且 信 号 _preset 的 1-0 电 平 变化 也 会 异步 地 置 位 
4(4=]1)。 并 且 ， 并 行 的 ， 非 阻塞 赋值 符号 “< 和 ”使 得 多 个 实体 的 触发 器 〈 如 果 有 ) 实现 时 钟 同 步 。 

如 仿真 里 的 输出 所 示 ， 在 仿真 为 3 个 单位 时 间 clock = 0 时 ,4 变 为 1 并 没有 改变 gq 的 
值 ， 与 所 期 望 的 一 样 。 在 时 间 为 4 个 单位 ，clock 发 生 0-1 变化 时 ，& = 1 也 如 所 期 望 的 那样 
将 4 的 值 变 为 1。 在 第 5 个 时 间 单 位 ，clock 仍然 为 1，dg 变 为 0 时 ，g 如 所 想 的 那样 没有 发 
生变 化 ,阐明 了 触发 器 的 行为 表现 。 

HDL 模块 : 

module dff 

( 


input clock, _reset, preset, d, e, 
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output reg q, 


output ng 
) ; 
assign ng = ~q; //nq indicates not q 
always@(posedge clock, negedge reset, negedge preset) 
begin 
if(! reset) 
q <= 0; 
else if(! preset) 
q <1; 
else if (e) 
q <= d; 
end 
endmodule 


测试 模块 : 


‘include "dff.v" 

module tester(); 

reg clock, reset, preset, q, e; 

wire q, nq; 

dff dffi(clock, reset, preset, d, e, q, nq); 

initial begin 

Smonitor("%t4d clock = %b reset = %b preset = tb e = tb d = %b 
q = tb nq = %b\n", $time, clock, reset, preset, e, d, q, nq); 
clock = 0; reset = 1; _preset = 1; e = 0; 


#1 reset = 0; 
#1 reset = 1; 
tL e= 13 dad = Ls 


#1. cl6éck = 1; 
#1 da = 0; 

#10 finish; 
end 


endmodule 


仿真 输出 : 


Chronologic VCS simulator copyright 1991-2009 
Contains Synopsys proprietary information. 
Compiler version D-2009.12; Runtime version D-2009.12; 


clock = 0 reset = 1 preset =le=0 d=xq=xnq=x 


clock = 0 reset = 0 preset d=xq=0O0Ong=l1 


d=xq=0Ong=1 
d=1q=0ngqg=1 


clock = 0 reset = 1 preset 


中 
hi ee j 
oo 00 0.0 oO 
Il 
PppPOD 


clock = 0 reset = 1 preset 


U Ae Ww NBEO 


clock = 1 _reset = 1 _preset = = d=1q=1ng=0 
clock = 1 reset = 1 preset = 1 e = d=0qs1nq=0 
Sfinish called from file "tester.v", line 19. 
Sfinish at simulation time 15 
VCS 仿真 报告 
Time: 15 


CPU Time: 0.460 seconds; Data structure size: 0.0Mb 


参考 文献 


1. Mi-Sook Jang and Hoi-Jin Lee, “Methods of HDL simulation considering hard macro core 
with Negative Setup/Hold time,” US Patent 7,213,222 B2, May 1, 2007. 


练习 


4.1 


4.2 


4.3 


第 一 部 分 : 图 4-22 所 给 电路 图 中 ，9s 是 高 电 平 触发 的 D 锁 存 器 的 输出 ， 在 图 4-23 中 为 q 完成 时 
序 波 形 。 假设 Tst = Teg = 0. 





_reset 


4-22 练习 4.1 和 练习 4.2 的 电路 图 


第 二 部 分 : 图 4-22 所 给 电路 图 中 ，g 是 上 升 沿 触发 的 D 触发 器 的 输出 ， 在 图 4-23 中 为 q 完成 时 
序 波 形 。 假 设 r=zraq=0。 


图 4-23 练习 4.1 ~ 练习 4.4 的 波形 图 


第 一 部 分 : 图 4-24 所 给 电路 图 中 ，g, 是 下 降 沿 触发 的 D 锁 存 器 的 输出 ， 在 图 4-23 中 为 qa 完成 时 
序 波形 。 假 设 t= Teq = 00 





_reset 


4-24 练习 4.3 和 练习 4.4 的 电路 图 
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4.4 第 二 部 分 : 图 4-24 所 给 电路 图 中 ，gq 是 下 降 沿 触发 的 D 触发 器 的 输出 ， 在 图 4-23 中 为 qs 完成 时 
序 波形 。 假 设 Ta = Teq = 0。 

4.5 图 4-22 所 给 电路 图 中 ，gs 是 上 升 沿 触发 的 DD 触发 器 的 输出 ， 在 图 4-25 中 为 ge 完成 时 序 波形 。 假 
W Ta =0.15ns, Teg = 0.lns。 





4-25 练习 4.5 的 时 序 波形 图 
4.6 图 4-22 所 给 电路 图 中 ，9qg 是 上 升 沿 触发 的 D 触发 器 的 输出 ， 在 图 4-26 中 为 qs 完成 时 序 波形 。 假 


设 T= 0.1ns，tzht =O.lns, tq = 0.2ns。 





图 4-26 练习 4.6 的 波形 图 


4.7 已 知 一 个 D 触发 硕 的 建立 时 间 是 0.1ns， 保 持 时 间 是 0.1ns，d 最 大 的 传播 时 延 是 0.3ns， 请 确定 D 
触发 硕 能 够 正常 工作 时 的 时 钟 最 大 频率 。 
48 请 用 与 非 门 实现 一 个 带 有 重 置信 号 和 预 置 信号 的 D 触发 器 的 Verilog 结构 模型 ， 并 对 它 进 行 仿真 。 
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时 序 电 路 : 小 型 设计 


5.1 简介 


类 似 于 组 合 电路 (CC)， 时 序 电路 也 可 以 分 为 小 型 电路 和 大 型 电路 。 例 如 ， 输 出 序列 数 
0，1，2，3，… 的 计数 器 是 一 个 小 型 时 序 电 路 ， 而 可 以 同时 执行 多 条 指令 的 处 理 右 〈CPU ) 
是 一 个 大 型 时 序 电路 。 每 条 指令 都 需要 一 组 操作 来 完成 ， 其 中 涉及 一 个 或 多 个 寄存 器 ， 甚 至 
是 存储 器 。 

所 有 的 小 型 和 大 型 电路 都 由 触发 器 和 一 系列 的 组 合 电路 组 合 而 成 ， 例 如 图 5-1 中 所 示 的 
2 位 的 计数 器 。 这 个 计数 器 由 两 个 触发 器 和 一 系列 包含 2 位 加 法 器 的 组 合 电路 组 合 而 成 。 相 
对 于 组 合 电路 ， 时 序 电 路 包含 状态 和 传输 ， 在 每 个 时 钟 周期 内 可 以 从 一 个 当前 状态 转换 到 
另外 一 个 状态 。 当 前 的 状态 由 触发 器 4 位 的 状态 决定 。 在 这 个 图 中 ， 如 果 两 位 的 O = qiqo = 
(00)， 那 么 我 们 就 说 这 个 计数 器 当前 的 状态 是 0 ; 如 果 两 位 的 O = qiqo = (01),， 那 么 我 们 就 
说 这 个 触发 器 当前 的 状态 是 1， 等 等 。 计 数 器 每 个 时 钟 周期 也 会 输出 2 位 的 状态 值 = qiqo 
作为 计数 。 


01 


作为 一 组 组 合 电路 的 2 位 加 法 器 
D =(d1d0), =(q1q0), + (01), 





Cout 
( 忽略 ) 


Cin=0 


clk 


_reset 


0 
1 
计数 输出 : 2 
3 


O = O = O 


5-1 带 有 两 个 触发 器 的 2 位 计数 器 的 FSM 


加 法 器 (计数 器 组 合 电 路 的 集合 ) 产生 计数 器 的 下 一 个 状态 作为 一 个 2 位 的 数字 DD = 
dido = qigo + 1。 如 果 这 个 计数 圳 的 当前 状态 是 CO = qiqo = (00, 那么 它 的 下 一 个 状态 是 D = 
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dido = (01)2。 dı 和 do 在 下 一 个 时 钟 周期 内 被 保存 。 

这 种 时 序 电 路 的 设计 需要 额外 的 方法 学 。 时 序 电 路 的 设计 问题 通常 是 建 模 为 一 个 有 限 状 
SR (FSD). FSD 由 环形 的 状态 和 弧 (ATA) 的 转换 组 合 而 成 。 它 正式 指定 了 目标 时 序 电路 
的 行为 。 这 个 2 位 的 计数 器 有 4 个 状态 分别 记 为 0、1、2、3。 它 从 状态 0 转换 为 1， 再 从 
状态 1 转换 为 2， 然后 再 从 2 转换 为 3， 最 后 再 从 状态 3 回 到 0。 有 限 状 态 图 系统 转换 成 一 
个 叫 作 有 限 状 态 机 (FSM) 的 电路 ， 如 图 5-1 所 示 。 

大 型 时 序 电 路 的 设计 问题 通常 可 划分 为 数据 通路 和 控制 单元 的 设计 。 数 据 通 路 包括 CC 
模块 ， 比 如 算术 逻辑 单元 (ALU)、 多 路 选择 器 (MUX)， 还 有 译 码 器 和 小 型 的 时 序 电 路 ， 比 
如 寄存 器 和 计数 右 。 大 型 时 序 电 路 的 设计 将 会 在 第 6 章 中 进行 介绍 ， 特 别 地 ，CPU 的 设计 
将 会 在 第 8 章 中 进行 介绍 。 

有 时 ， 设 计时 序 电路 时 不 优先 构造 有 限 状 态 图 也 是 可 行 的 。 在 很 多 情况 下 ， 简 化 一 
小 型 和 大 型 时 序 电路 的 设计 是 一 个 很 重要 的 理念 ， 包 括 CPU。 例 如 ， 图 5-1 中 的 组 合 电 路 
(也 就 是 加 法 器 ) 就 是 一 个 例外 ， 计 数 器 作为 一 个 已 知 的 功能 ， 不 需要 FSD 就 可 以 设计 
出 来。 

男 一 方面 ， 比 如 序列 识别 器 的 设计 ， 输 入 为 一 系列 的 1 和 0, 一 旦 识别 出 一 组 特定 的 
序列 输入 就 输出 1， 这 个 设计 的 实现 需要 FSD。 这 种 情况 与 示例 中 2 位 的 计数 器 形成 对 
比 ， 因 为 让 一 个 设计 者 提前 知道 序列 识别 器 的 组 合 电路 会 表现 出 什么 特别 的 功能 几乎 是 不 
可 能 的 。 

时 序 电 路 也 很 容易 受到 硬件 电路 的 影响 ， 比 如 发 生 在 传输 时 的 瞬时 故障 ， 这 改变 了 时 序 
电路 的 状态 ， 导 致 了 失灵 。 使 时 序 电 路 不 受 硬件 环境 干扰 的 一 种 方式 是 使 用 容错 设计 。 

这 一 章 我 们 将 以 一 个 小 型 状态 机 设计 问题 开篇 ， 然 后 说 明 通常 情况 下 状态 机 的 设计 实 
现 ， 包 括 容错 FSM 设计 。 我 们 也 将 说 明 时 序 电路 的 时 序 要 求 ， 一 起 讨论 用 Verilog 实现 的 状 
态 机 的 实例 。 


5.2 状态 机 介绍 : 寄存 器 设计 


寄存 器 作为 一 个 小 型 时 序 电 路 ， 被 用 作 存 储 模 块 来 保存 组 合 电 路 的 输出 。 作 为 一 个 移 位 
寄存 器 ， 要 有 能 力 将 它 本 身 的 数据 向 左 或 向 右 移动 一 定 的 位 数 。 我 们 选择 一 个 简单 的 寄存 器 
作为 第 一 个 设计 问题 有 以 下 几 点 原因 : 

e 为 了 说 明 设计 划分 问题 。 

e 为 了 首先 设计 一 个 简单 的 状态 机 。 

e 为 第 4 章 用 到 的 触发 器 提供 一 个 典型 的 设计 。 

图 5-2 描述 了 一 个 带 有 输入 蕊 = x3…xo 和 输出 Z = 23…2o 的 4 位 并 行 加 载 寄 存 器 。 假 设 
_reset = 1( 即 无 效 )， 如 果 寄 存 器 已 被 使 能 (就 是 enable = 1 )， 那 么 寄存 器 将 在 下 一 个 clk 的 
EF IMR X, IE Z =X, 否则， 如果 enable = 0， 寄 存 器 将 不 被 使 能 ， 继 续 保 持 它 的 值 
不 变 。 

在 这 个 图 中 ， 假 设 每 一 个 触发 器 的 异步 预 置信 号 s 是 1 (无 效 )， 这 些 在 图 中 没有 展现 
出 来 。 然 而 ， 如 果 让 reset 信号 初始 化 一 些 寄存 器 的 位 为 1 而 其 他 的 位 为 0， 那 么 _reset 信 
号 应 当 连 接 到 某 些 触发 器 的 输入 端 s 上 来 把 它们 初始 化 为 1， 并 且 连 到 其 他 触发 器 的 输入 
tig 了 T 上 。 所 有 未 用 到 的 输入 端 s 和 _r 应当 被 置 为 无 效 ， 在 这 个 图 中 是 低 电 平 有 效 的 话 ， 它 
们 应 当 被 连 到 1 上 。 
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5-2 一 个 4 位 并 行 加 载 寄存 器 


5.2.1 ”寄存 器 模型 


图 5-2 中 的 n= 4， 一 个 n 位 寄存 器 的 设计 可 以 由 nn 个 1 位 的 寄存 器 片 组 合 而 成 。 如 
图 5-3 所 示 ， 这 个 寄存 器 片 的 行为 可 以 被 典型 地 建 模 为 一 个 有 限 状 态 图 。 通 过 分 析 设 计 的 问 
题 可 知 ， 这 个 电路 表现 出 一 系列 特定 而 又 有 明确 数量 的 状态 。 因 为 这 个 1 位 寄存 器 存储 0 或 
1 作为 它 的 内 容 ， 它 的 状态 图 表现 出 两 
个 可 能 的 状态 (也 就 是 两 个 圈 ) 。 这 些 弧 
代表 了 从 一 个 状态 转换 到 另 一 个 状态 ， M 
包含 每 一 种 转换 情况 。 

如 图 中 所 示 ， 如 果 这 个 寄存 器 如 所  ,_。 
想 的 一 样 没有 被 使 能 (也 就 是 e= 0 )， 寄 
存 器 将 保持 它 的 当前 状态 0 或 1。 这 意 
味 着 有 一 个 弧 ( 弧 1 ) 会 从 状态 0 回 到 它 W 
本 身 ， 也 有 另外 一 个 弧 ( 弧 4) 会 从 状态 Br ee 
1 回 到 它 本 喘 。 与 每 一 次 转换 相关 的 信 图 5-3 一 位 寄存 器 片 被 建 模 为 一 个 有 限 状态 图 
号 值 都 在 弧 上 列 了 出 来 。 例 如 ， 与 弧 1 
ALUN 4 相关 的 信号 是 e = 0, x 的 值 不 产生 影响 (0 和 1 )。 如 果 这 个 寄存 器 片 的 状态 是 0， 而 
且 此 时 e=1, x=1， 那 么 在 下 个 时 钟 周 期 这 个 寄存 器 片 将 从 状态 0 转换 到 状态 1， 即 弧 3 所 
示 。 其 他 的 弧 也 都 类 似 。 

图 5-4 中 描述 了 一 个 1 位 寄存 器 片 作为 一 个 FSM 的 详细 框图 。 它 包括 一 个 简单 的 触发 
器 用 来 保存 这 个 1 位 寄存 器 的 状态 是 0 还 是 1， 还 包含 了 一 个 组 合 电 路 来 输入 当前 的 状态 ， 
即 9g 信号 所 示 ， 另 外 还 有 其 他 的 输入 信号 x 和 e， 用 来 确定 下 一 个 状态 的 输出 ， 即 信和 号 d 所 
示 。 这 个 寄存 器 片 的 输出 被 定义 为 z= g。 


e=0,x=0,1 e=0,x=0,1 
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5-4 1 位 寄存 器 片 的 详细 框图 
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4 信号 的 逻辑 表达 可 以 由 一 个 真 值 表 确定 ， 也 叫 转换 表 。 这 个 表 是 有 限 状态 图 中 信息 的 
表格 方式 的 表达 。 表 5-1 是 1 位 寄存 器 片 的 转换 表 。 例 如 ， 表 中 的 前 两 行 表示 弧 1 (图 5-3 )， 
第 3 行 表 示 弧 2， 第 4 行 表示 弧 3， 等 等 。 从 这 个 转换 表 中 可 以 得 出 表达 式 d= ag + ex ty 


最 小 值 。 
R 5-1 1 位 寄存 器 片 的 FSD 所 对 应 的 转换 ( 真 值 ) 表 
当前 状态 下 一 状态 
4 
0 E ee | i 
i O DEE NE i 
o i 
0 
i | 
1. N | 
| ee <a ae 
i E 


图 5-5 表示 一 个 1 位 寄存 器 片 的 电路 ， 注 意 这 里 的 表示 中 有 一 个 2-1 EPA, WR e = 0, 
那么 4= 494， 相反 如 果 e= 1， 则 4=x。 回 忆 起 
在 第 4 章 中 有 一 个 相同 的 电路 ， 是 一 个 带 有 使 
能 信号 的 触发 器 (图 4-19 )。 而 这 里 ， 这 个 电 
路 是 使 用 有 限 状 态 图 来 设计 的 。 


5.2.2 多 功能 寄存 器 


有 上 时候 ， 寄 存 器 需要 表现 出 多 个 功能 中 
的 一 种 。 图 5-6 是 一 个 带 有 nn 位 输入 和 、n 位 
输出 Z 和 2 位 功能 码 F = fh 的 4 种 功能 的 寄 
存 器 框图 。 当 寄存 器 的 高 电 平 有 效 的 enable 5-5 1 位 寄存 器 片 (与 图 4-19 一 样 ) 
信号 有 效 时 ， 该 寄存 器 被 使 能 。 该 寄存 器 还 需 
要 一 个 低 电 平 有 效 的 reset 信和 号 来 异步 地 将 它 初始 化 为 0。 这 个 寄存 器 的 4 种 功能 分 别 是 同 
步 复位 〈 清 零 )、 并 行 加 载 、 算 术 右 移 并 复制 符号 位 和 右 移 并 从 左边 进 0。 


X 


f enable 
4 种 功能 ，n 位 寄存 器 4— clock 
f0 _reset 


Z 








| f1 | fo | 功能 

— 清 零 ( 同步 复位 ) OOO 
加 载 X me 

1 | 0 | 算术 移 位 ( 右 移 并 复制 符号 位 ) 






5-6 一 个 4 种 功能 的 寄存 器 框图 


1. 位 串 行 设计 
图 5-7 是 4 种 功能 1 位 寄存 器 片 的 详细 框图 和 有 限 状 态 图 。 和 之 前 的 示例 形成 对 比 ， 这 
们 假设 这 种 情况 中 的 触发 器 包含 使 能 信号 e。 而 且 ， 为 了 清晰 与 方便 ,一 些 不 影响 的 信号 没 
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有 表示 出 来 ， 在 有 限 状 态 图 的 转换 动作 中 也 省 略 了 。 例 如 ,i 和 x 在 条 件 F=0 (Af = 00) 
发 生 时 是 不 产生 影响 的 信号 ， 因 为 寄存 器 片 必须 被 同步 地 初始 化 为 0， 而 不 关心 输入 信号 i 
和 x 的 值 ， 那 么 在 条件 发 生 时 它们 不 再 被 表示 出 来 。 


ee a te Re te a EY hot SNS Re 


clock 








enable F=1,=0 F=1, x= 
~reset F=25%3,i=0 F=2543,i=1 


图 5-7 4 种 功能 1 位 寄存 器 片 的 详细 框图 和 有 限 状 态 图 


在 图 5-7 中 ， 这 个 组 合 电路 有 5 个 输入 端 一 一 q (当前 状态 )、fi、 有 、i 和 x， 还 有 一 个 输 
Hid (下 一 状态 )。 它 的 真 值 表 将 会 包括 32 行 ， 因 此 这 里 就 不 再 表示 了 。 使 用 Espresso 最 
小 化 软件 得 出 表达 式 d = f fox + fii。4 种 功能 1 位 寄存 器 片 的 最 终 电路 和 符号 在 图 5-8 HK 
示 了 出 来 。 使 用 4 个 同样 的 寄存 器 片 可 以 得 到 4 种 功能 的 4 位 寄存 器 ， 即 图 5-9 中 所 示 。 图 
中 的 每 个 寄存 器 片 ， 除 了 最 左边 的 那个 ， 其 输入 端 i 都 连 到 了 前 面 所 连 寄 存 器 片 的 输出 端 z。 
最 左边 寄存 器 片 的 输入 端 i 被 定义 为 i= f; fz。 当 下 = 2 时 它 将 复制 z; 的 值 ， 对 外 表现 出 算 
术 右 移 。 








5-9 4 种 功能 的 4 位 位 串 行 寄存 器 设计 
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注意 图 5-10， 有 一 个 在 图 5-8 中 定义 的 带 有 输入 端 0、x、i 和 (i 信和 号 用 到 了 两 次 ) 的 
1 位 4-1 选择 器 。 选 择 器 SOP 的 表达 式 简 化 为 4 = fi fox + fii, KAA 5-8 中 用 有 限 状 态 图 得 
到 的 是 一 样 的 。 这 是 在 不 需要 FSM 模型 的 情况 下 去 设计 位 串 行 或 位 并 行 有 限 状 态 图 的 科学 
有 效 的 方式 。 然 而 ， 使 用 这 种 技术 需要 分 析 设 计 
问题 ， 确 定 是 否 有 已 知 的 可 用 的 组 合 电 路 模块 ， 
比如 这 种 情况 中 的 选择 器 就 可 以 在 这 种 设计 中 使 
用 。 这 在 使 用 位 并 行 技术 设计 4 位 的 4 种 功能 的 
寄存 器 中 将 再 次 介绍 。 然 而 ， 在 分 析 设计 问题 时 





d=fifo0+fifox+ fifoi+ fifoi 


如 果 不 能 确定 一 个 已 知 的 模块 ， 则 必须 使 用 有 限 
状态 图 为 这 个 设计 问题 进行 建 模 。 5-10 “ 带 有 输入 信号 0.x 和 / (用 到 两 次 ) 


图 5-11 描述 了 图 5-6 中 所 给 的 4 种 功能 寄存 
器 的 设计 ， 使 用 了 一 个 4 位 并 行 加 载 寄 存 器 和 一 个 4 位 的 4-1 选择 器 。 这 个 选择 句 的 4 个 4 
位 输入 中 的 一 个 连 到 了 它 的 输出 上 ， 这 个 值 然 后 被 加 载 到 一 个 4 位 并 行 寄存 器 中 。 这 个 选择 
名 的 4 个 输入 定义 如 下 : 
e 输入 0: 同步 清 零 (F = 0 )， 连 接 到 地 ， 置 为 逻辑 0。 
e 输入 1: 并 行 加 载 (F = 1 )， 连 到 4 位 的 输入 上 。 
@ 输入 2 : ARAB (F= 2), 连 到 | {Z3, 23 Z2 Zi}, 符号 位 Z3 od Z 的 高 三 位 
拼接 起 来 (由 {} 表示 出 来 ) 生成 一 个 4 位 的 数 。 
e 输入 3 : AB (F=3), Fl {0, z3 z221}, 0 和 寄存 项 的 答 出 Z 的 高 三 位 拼接 起 来 生 
成 一 个 4 位 的 数 。 





2 1 
4 位 4-1MUX . 







Z=z3z2z1z0 
5-11 4 位 的 4 种 功能 寄存 器 的 位 并 行 设 计 


5.3 FSM 设计 


在 前 面 的 章节 中 已 经 列举 过 位 串 行 和 位 并 行 FSM 的 简单 实例 。 通 常情 况 下 ，FSM 按 种 
类 可 分 为 Mealy 状态 机 、Moore 状态 机 和 混合 状态 机 。 另 外 ，FSM 的 组 合 电路 可 分 为 两 部 
分 : 一 部 分 表现 为 下 一 个 状态 发 生 器 (NSG)， 男 一 部 分 表现 为 输出 信号 发 生 器 (OG)。NSG 
决定 了 下 一 个 状态 ，0G 产生 输出 的 信号 。 

图 5-12 是 一 个 FSM 的 详细 框图 。 如 果 FSM 的 输出 由 它 当 前 的 状态 或 它 当 前 的 输入 决 
定 ， 而 不 是 由 时 钟 计 数 、 复 位 、 直 接连 到 触发 器 上 的 置 位 信号 和 触发 吉 上 的 使 能 信和 号 确定 ， 
那么 这 种 输出 被 称 为 Mealy 输出 ， 这 个 FSM 被 称 为 Mealy 状态 机 。 外 部 输入 中 的 一 个 或 多 
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个 值 的 改变 将 会 使 得 Mealy 输出 发 生变 化 ， 而 与 时 钟 信号 无 关 。 在 图 中 ， 这 将 表现 为 一 根 粗 
虚线 ， 连 接着 外 部 输入 信号 和 输出 信号 发 生 器 的 输入 端 。Mealy 输出 异步 地 取决 于 外 部 输入 

的 值 。Moore 输出 不 像 Mealy 输出 ， 它 同步 地 取决 于 外 部 输入 的 值 。 混 合 状态 机 同时 包括 
Mealy 输出 和 Moore 输出 。 






clock 


a enable 


5-12 前述 Mealy 状态 机 和 Moore 状态 机 的 详细 框图 


我 们 使 用 一 个 序列 识别 器 作为 实例 来 继续 讨论 这 个 话题 ， 还 有 影响 电路 尺寸 的 设计 选 
择 。 序 列 识别 器 工作 起 来 更 像 组 合 电路 数字 锁 的 控制 问 。 它 一 次 监视 一 位 输入 ， 而 且 识别 器 
每 次 检测 到 目标 序列 都 会 输出 1， 例如 3 位 的 序列 “101”。 识 别 器 可 以 识别 重生 或 不 重 琶 的 
序列 。 例 如 ， 输 入 序列 “10101” 包 含 两 个 重生 的 序列 “101”， 其 中 输入 序列 中 间 的 “1” 是 
共用 的 。 从 另 一 方面 讲 ， 输 入 序列 “101101” 包 含 两 个 不 重 冯 的 “101” 序 列 。 

检测 重 芭 序列 “101” 的 Moore FSM 的 设计 。 

fit: 15-13 所 示 为 带 有 输入 x 和 输出 z 的 序列 识别 器 的 项 层 模块 框图 。 它 的 Moore 有 
限 状态 图 也 由 所 列 A、B、C 和 DD 四 个 状态 表示 了 出 来 。 高 电 平 有 效 的 reset 信号 用 来 异步 
地 将 状态 机 初始 为 状态 A， 即 有 限 状 态 图 中 的 reset 箭头 所 示 。 输 入 的 序列 一 次 处 理 一 位 。 
序列 识别 右 每 次 处 理 目标 序列 的 下 一 位 时 将 会 发 生 转 换 ， 进 入 一 个 新 的 状态 。 例 如 ， 如 果 识 
别 妖 正在 状态 C 中 ， 意 味 着 它 已 经 接收 了 目标 序列 的 第 一 个 两 位 。 每 个 状态 的 z 输 出 在 下 面 
表示 了 出 来 ， 而 且 当 识别 名 接收 到 目标 序列 的 最 后 一 位 并 进入 状态 D 时 z 变 为 1。 在 其 他 状 
ASP z 的 值 都 是 0。 识 别 器 每 次 都 会 拒绝 所 输入 的 所 有 其 他 情况 的 3 位 序列 ， 并 重新 开始 。 
下 面 将 介绍 其 他 解决 方案 的 细 市 。 u (173 

如 果 有 限 状 态 图 中 的 每 个 状态 都 有 一 个 独特 的 转换 ( 弧 )， 那 么 这 个 有 限 状 态 图 是 确定 
的 。 然 而 ， 比 如 说 图 5-13 中 的 状态 A， 当 x = 1 时 还 有 第 二 个 转换 到 状态 C， 那 么 这 个 有 限 


134 BSF 


状态 图 是 不 确定 的 。 在 这 种 情况 下 ， 当 x = 1 时 ， 将 不 能 确定 应 当 从 状态 A 转换 到 B 还 是 转 
换 到 C。 这 里 有 两 种 方式 来 实现 确定 的 有 限 状 态 图 : 
1) 二 进 制 编码 状态 一 一 在 这 种 情况 中 ， 这 些 状 态 都 由 唯一 的 最 小 可 能 位 数 的 二 进 制 数 来 
标识 (标记 )。 例 如 ， 图 5-13 中 的 4 个 状态 可 以 由 2 位 的 二 进 制 数 来 标识 : 00、01、10 和 11。 
2) 独 热 码 状态 一 一 在 这 种 情况 下 ， 这 些 状 态 均 被 一 个 唯一 的 二 进 制 数 所 标识 ， 每 个 状 
态 仅 由 一 位 1 组 成 ( 独 热 )， 其 他 位 均 保 持 0。 例 如 ,图 5-13 中 的 4 种 状态 可 以 由 4 位 的 独 
热 码 0001. 0010, 0100 和 1000 来 标识 。 








Bey on 01 9 


1101010110111 
序列 识别 器 





图 5-13 “101” 序 列 识别 器 的 框图 以 及 它 的 M oore FSD 


5.3.1 ”二进制 编码 状态 


有 限 状态 图 中 对 状态 进行 编码 所 需要 的 最 小 位 数 由 公式 〈5-1 ) 确定 ， 其 中 上 是 状态 的 
总 个 数 。 符 号 [ | 表示 上 取 整 运算 。 
位 数 = [ log, (k) | (5-1) 
例如 ， 如 果 状 态 的 数量 超过 了 4 而 且 低 于 8 (BN 4<k <8), 那么 5 ~ 8 个 状态 都 需要 3 
位 的 数 来 表示 。 哪 一 个 数字 被 分 配 到 哪 一 个 状态 是 一 个 逻辑 优化 问题 。 图 5-14 用 二 进 制 编 
[174] 码 状 态 表示 了 图 5-13 中 序列 识别 器 的 详细 框图 。 





a 


5-14 “101” 序列 识 别 器 的 详细 框图 


reset 
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接 下 来 的 两 个 转换 (AA) 表 (K 5-2 和 表 5-3) 是 由 有 限 状态 图 确定 的 ， 其 中 二 进 制 数 
00 用 来 表示 状态 A，01 表示 状态 B，10 表示 状态 C，11 表示 状态 D。 真 值 表 用 来 确定 与 每 
个 状态 变量 di. do 和 输出 变量 z 相关 的 最 小 SOP 表达 式 (公式 (5-2 ))。 图 5-15 BHA LFA 


沿 触 发 的 触发 吉 和 高 电 平 有 效 的 复位 信号 的 完整 电路 。 
表 5-2 由 图 5-13 中 有 限 状 态 图 得 出 的 下 一 个 状态 转换 表 


当前 状态 输 入 下 一 个 状态 

qı go X dı do 

0 0 0 0 
A 

0 0 0 l 

0 1 ] 0 
B 

] 0 0 0 
C 

l 0 l l 

l l ] 0 
D 


表 5-3 由 图 5-13 中 有 限 状态 图 得 出 的 输出 信号 发 生 器 的 真 值 表 


当前 状态  . 输 
qı qo < 
0 0 0 
0 l 0 
l 0 0 
l ] 1 





图 5-15 检测 重 琶 序列 “101” 的 Moore FSM 


iene 


Kh 
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dy = gox + qiqo% 
dy = % (5-2) 
z= 4190 
图 5-16 是 另 一 种 带 有 分 布 式 组 合 电 路 的 电路 示意 图 。 在 这 个 电路 中 ， 每 部 分 组 合 电 
路 一 一 组 合 电 路 1 和 组 合 电路 2 一 一 都 在 与 它 相 关 的 触发 器 的 后 面 表 示 了 出 来 。 这 就 是 电路 
通常 的 实现 过 程 。 





5-16 5-15 中 电路 的 另 一 种 形式 及 其 典型 布局 


复位 后 ， 序 列 识别 器 的 状态 被 初始 化 在 状态 0 上 ( 即 qigo = 00 )， 可 以 得 知 此 时 的 输出 
z=0。 假设 x= 1， 给 出 q1=0 和 go=0， 通 过 表达 式 得 出 di =0，do = 1。 一 旦 4 信号 被 加 载 
到 触发 器 ， 使 得 qigo = 01, 识别 器 将 会 从 状态 0 转换 到 状态 1。 
假设 下 一 个 输入 是 0 (Bl x = 0)， 这 时 ， 表 达 式 中 可 得 出 di = 1, dh=0, ERAS a 
将 转换 到 状态 2 ( qigo = 10 )。 最 后 ,假设 下 一 个 的 输入 是 1 (x = 1 )。 表 达 中 可 得 到 d = 1， 
qdo = 1， 识 别 器 转换 到 状态 3 (qiqo = 11 )。 一 
旦 进入 状态 3, z 将 变 为 1 识别 到 序列 
“101”。 通 常情 况 下 ， 测 试 FSM 的 每 一 个 转 
换 (尤其 是 大 的 状态 机 ) 是 非常 困难 的 ， 需 要 
相当 大 量 的 测试 。 
实现 下 一 个 状态 发 生 器 和 输出 发 生 器 所 
需 的 硬件 的 数量 取决 于 每 个 状态 对 应 的 二 进 制 
数 。 图 5-15 的 电路 是 由 00、01、10 和 11 设 
计 实 现 的 ， 分 别 对 应 状态 A 到 D。 假 设 我 们 
决定 改变 这 个 对 应 关系 ， 而 由 00、11、10 和 
01 分 别 代 表 状 态 A 到 D。 这 将 使 得 电路 需要 
更 少 的 硬件 。 公 式 (5-3) 列 出 了 使 用 新 的 二 
进 制 状态 表 所 需 的 最 简单 的 SOP 表达 式 ， 分 
别 对 应 状态 变量 d1、qo 和 输出 z。 注 意 ， 与 
图 5-15 中 的 电路 对 比 ， 图 5-17 d, 所 需 的 电 5-17 另 一 种 编码 状态 所 对 应 的 检测 重生 序 
路 将 会 更 简单 。 列 “101” 的 Moore FSM 
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di = go + qx = (Go) (qx) 
dy = & (5-3) 
z= 414 


5.3.2 ” 独 热 码 状 态 


二 进 制 编 码 状态 的 设计 技术 可 以 减少 触发 器 的 数量 ， 而 独 热 码 状态 的 设计 技术 可 以 减 化 
组 合 电路 的 大 小 。 独 热 码 在 可 编程 的 逻辑 设备 (PLD) 中 显得 很 有 优势 ，PLD 中 有 大 量 的 可 
配置 的 逻辑 块 (4CLB)， 每 个 CLB 中 有 一 个 或 多 个 触发 器 。 例 如 ， 一 个 FPGA 中 有 成 千 上 万 
个 CLB ， 会 包含 成 千 上 万 个 触发 器 。 因 此 ， 使 用 更 多 的 触发 器 〈 每 个 状态 一 个 ) 和 更 少 的 复 
杂 的 组 合 电路 将 会 更 有 效 。 独 热 码 设计 技术 更 像 是 为 了 生产 传播 时 延 更 小 的 电路 ， 其 中 不 计 
入 传播 线 的 时 延 ， 这 在 某 些 PLD 设计 中 可 能 会 更 长 一 些 。 

在 每 个 时 钟 周期 中 ， 仅 有 一 个 触发 器 会 被 置 位 ( 即 g 为 1 )， 其 他 的 触发 器 保持 复位 ( 即 
q 为 0)。 例 如 ， 假 如 不 使 用 图 5-13 中 用 2 位 数 去 标识 4 个 状态 的 方式 ， 而 使 用 4 位 的 独 热 
码 0001、0010、0100 和 1000 来 表示 。 图 5-18 是 相应 的 独 热 码 FSM 的 详细 框图 。 注 意 ， 复 
位 之 后 ， 状 态 机 必须 从 状态 A(q3q92919o= 0001) 开始 ， 同 时 只 有 一 个 触发 器 被 置 位 。 因 此 ， 
如 图 中 所 示 ， 复 位 信号 必须 连 到 与 ge 相关 的 触发 器 的 置 位 Cs) 输入 端 ， 同 时 连 到 其 他 触发 
器 的 复位 (r) 输入 端 。 表 5-4 是 下 个 状态 发 生 器 的 真 值 表 ， 表 5-5 是 输出 发 生 器 的 真 值 表 。 
没有 的 表 项 被 视 为 不 关心 项 ， 不 再 列 出 。 然 而 为 了 进一步 简化 电路 ， 这 些 不 关心 的 输出 值 在 
卡 诺 图 、Espresso 文件 和 HDL 建 模 中 应 当 被 列 出 来 。 另 外 ， 为 了 在 HDL 建 模 中 避免 产生 隐 
式 的 锁 存 器 ， 不 关心 的 值 会 变 得 尤其 重要 。 





图 5-18 检测 序列 “101” 的 独 热 码 FSM 的 详细 框图 
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R 5-4 图 5-12 中 FSD 所 对 应 的 独 热 码 设计 中 下 一 个 状态 发 生 器 的 真 值 表 


当前 状态 输 入 下 一 个 状态 
q3 q2 qı qo X d3 dz dı do 
0 0 0 1 ae 0 0 0 1 A 
A 
0 0 0 ] 0 0 l 0 B 
0 0 l 0 0 l 0 0 Cc 
ü 0 0 1 0 Ba 0 0 ] 0 B 
0 l 0 0 0 0 0 l A 
l 0 0 0 0 ] 0 0 G 
l 0 0 0 ne 0 0 l 0 B 
表 5-5 5-12 中 FSD 所 对 应 的 独 热 码 设计 中 输出 发 生 器 的 真 值 表 
当前 状态 输 出 
q3 q2 qı qo rf 
A 0 0 0 l 0 
B 0 0 1 0 0 
G 0 1 0 0 0 
D ] 0 0 0 ] 
公式 〈5-4) 列 出 了 下 个 状态 变量 d; 到 do 和 输出 变量 z 的 最 小 表达 式 。 
ds = qx 
dy = qz Jo % 
d, = qx ( 5-4 ) 
dy = 939, ¥ 
a= 43 


图 5-19 表示 最 终 的 电路 。 与 图 5-17 中 的 二 进 制 编码 FSM 形成 对 比 ， 独 热 码 FSM 需要 
更 多 的 门 电路 , 但 是 每 一 个 下 个 状态 位 需要 更 少 的 电路 ， 输 出 z 不 需要 电路 。 

检测 重 释 序 列 “101” 的 Mealy FSM 的 设计 。 

解 : 图 5-20 是 一 个 序列 识别 器 的 Mealy 有 限 状 态 图 的 框图 。 注意 ， 在 这 种 情况 
H, zX Mealy 输出 只 与 弧 相 关 ， 而 不 是 状态 。 每 个 弧 的 标签 由 两 部 分 组 成 ， 由 一 个 斜 
A (/) AF, WA OERA x) 在 斜 杠 的 左边 ， 输 出 (这 里 只 有 z) 在 斜 杠 的 右边 。 另 
外 ， 在 介绍 Mealy 解决 方案 之 前 ， 下 面 先 通过 这 个 实例 对 Mealy 和 Moore 的 设计 问题 进行 
讨论 。 x 

图 5-21 X Mealy FSM 的 详细 框图 。 注 意 ， 如 果 FSM 在 状态 C 中 ,那么 当 x=0 时 z=0 
或 者 当 x=1 时 z=1。 因 此 ,不 出 所 料 ，Mealy 输出 z 异步 地 取决 于 外 部 输入 x。 这 是 Mealy 
FSM 的 典型 表现 。 一 旦 x 信号 发 生变 化 ，z 信号 也 会 变化 ， 而 与 时 钟 信号 无 关 。 这 个 有 限 状 
态 图 有 3 种 状态 。 它 可 以 使 用 两 个 触发 器 通过 二 进 制 编码 状态 标识 来 实现 ， 也 可 以 使 用 三 个 
触发 器 通过 独 热 状 态 码 来 标识 实现 。 

假如 状态 A、B 和 C 通 过 2 位 二 进 制 编码 来 表示 ，4 种 可 能 的 二 进 制 状态 中 有 一 个 将 不 
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被 使 用 。 人 例如， 假设 二 进 制 标 识 00 用 来 表示 状态 A，01 表示 B，10 表示 C。 那 么 二 进 制 标 
识 11 就 没有 用 到 ， 而 且 构 成 了 一 种 未 知 的 未 定义 的 机 器 状态 。 环 境 因素 (比如 瞬时 故障 ) 造 
成 的 一 个 或 多 个 触发 器 状态 的 变化 同时 会 造成 FSM 的 状态 变化 。 例 如 ，gi 或 go 中 某 一 位 的 
异常 变化 将 会 把 状态 01(C) 变 为 已 知 的 状态 00(A) 或 未 知 的 状态 11( 比 如 D)。 通 常情 况 下 ， 
在 设计 中 会 有 很 多 种 办 法 去 处 理 未 知 的 状态 。 





5-19 ”检测 序列 “101” 的 独 热 码 设计 FSM 


x=0/z2=0 x= /Z=0 







Eg “101” 4 
序列 检测 器 


5-20 “101” 序 列 识 别 器 框图 及 其 Mealy FSD 





ne EE A 





ija 下 一 个 状态 发 生 器 (NSG) 
tenancy 


q0 do 


reset 


5-21 “101” Mealy 序列 识别 器 的 详细 框图 


e 在 设计 时 将 FSM 中 未 知 的 状态 忽略 掉 一 一 在 这 种 情况 下 ， 未 知 的 状态 被 视 为 无 关 紧 
要 ， 例 如 ， 假 设 FSM 正在 操纵 一 个 简单 的 玩具 ， 如 果 FSM 进入 一 个 未 知 的 状态 中 
导致 了 失灵 ， 这 个 FSM 就 需要 重启 。 更 重要 的 是 ， 这 些 未 知 状态 的 二 进 制 标识 被 列 
A T NSG Ñ OG 的 真 值 表 中 ， 但 是 下 一 个 状态 的 值 和 输出 变量 被 设 为 不 关心 。 这 样 
会 减少 NSG 和 OG 电路 的 尺寸 。 
FSM 未 知 的 状态 转换 到 已 知 的 状态 一 一 在 这 种 情况 下 ， 每 次 FSM 进入 一 个 未 知 的 状 
态 时 ， 机 器 将 会 在 下 一 个 时 钟 周期 进入 一 种 已 知 的 状态 。 例 如 ， 图 5-22 表示 出 一 个 
WARAS D 的 二 进 制 编码 有 限 状 态 图 。 如 果 由 于 环境 影响 造成 FSM 偶然 进入 未 
知 状 态 D。 就 像 图 中 所 示 ， 它 将 在 下 一 个 时 钟 周期 转换 到 已 知 的 状态 A， 而 且 不 会 
产生 无 效 的 输出 。 在 这 种 情况 中 ， 未 知 状 态 D 的 标识 将 被 列 人 NSG 和 OG 的 真 值 表 
中 ,但 是 状态 A 将 作为 下 一 个 状态 被 标识 ， 而 不 论 此 时 x = 0 还 是 x = 1。 而 且 ， 输 
出 z 将 被 置 为 0。 
将 时 序 电 路 设计 为 容错 FSM 一 一 在 这 种 情况 下 ，FSM 有 能 力 从 未 知 的 状态 中 恢复 ， 
或 有 能 力 从 意外 转换 到 的 一 个 已 知 状态 中 恢复 过 来 ， 进 而 继续 正常 工作 。 例 如 ， 一 
个 简单 的 位 错误 可 以 置 位 或 复位 一 个 触发 器 ， 这 种 位 错 可 以 被 附加 的 硬件 电路 检测 
出 来 并 加 以 纠正 。 这 种 附加 硬件 电路 可 以 实现 一 位 检 错 与 纠 错 方案 ， 容 错 FSM 可 以 
使 用 附加 的 触发 器 和 逻辑 电路 去 检测 并 修正 异常 造成 的 错误 。 注 意 ， 如 果 使 用 独 热 
码 标识 ， 错 误 检 测 会 更 简单 一 些 。 我 们 将 在 5.5 节 中 讨论 容错 FSM. 

假设 第 一 个 选项 (忽略 未 知 状态 ) 是 用 来 设计 图 5-20 中 的 Mealy 有 限 状 态 图 ， 表 5-6 为 
设计 中 NSG 的 真 值 表 ， 而 且 包 含 了 被 忽略 的 未 知 状态 D， 当 当前 状态 是 D 时 ， 下 一 个 状态 
被 定义 为 不 关心 。 同 样 ， 表 5-7 为 OG 的 真 值 表 ， 而 且 当 当前 状态 是 D 时 ,输出 z 被 置 为 不 
Kdo AA (5-5) 列 出 了 下 一 个 状态 变量 di 和 dy 以 及 输出 变量 z 的 最 小 表达 式 。 
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5-22 ” 带 有 一 个 未 知 状态 D 的 二 进 制 编码 FSD 


di = qo% 
do = x ( 5-5 ) 
Z= qx 


表 5-6 图 5-20 中 的 FSD 对 应 的 NSG HER 
当前 状态 输 ”入 下 二 个 状态 


qı go X dı do 
0 0 0 0 0 À 
A 
0 l 0 l 0 C 
B 
1 0 0 0 A 
C 
l 1 d d 
D 
表 5-7 5-20 中 的 FSD 对 应 的 OG 真 值 表 
当前 状态 输 入 输 出 
qı do X Z 
0 0 0 
A 
0 0 a 0 
0 1 0 
B 
0 l ia 0 
l 0 0 
E 
l 0 TO 1 
] l d 
D 
1 l as d 


图 5-23 中 给 出 了 相应 的 FSM 电路 。 通 常情 况 下 ，Mealy 状态 机 比 与 它 等 效 的 Moore 状 
态 机 需要 更 少 的 触发 器 。 然 而 ， 有 时 Moore 输出 是 首选 。 这 种 情况 下 ，Mealy 每 一 个 输出 会 
用 一 个 额外 的 触发 器 将 Mealy 输出 转换 成 相应 的 Moore 输出 。 在 这 个 图 中 ， 一 个 触发 器 将 
z-Mealy 转换 成 了 等 效 的 z-Moore. z-Mealy 异步 地 取决 于 外 部 的 输入 x， 而 z-Moore 不 会 。 
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Kp 


z-Moore 会 使 z-Mealy 滞后 一 个 时 钟 周期 。 


Mealy 到 Moore 
输出 转换 触发 器 


z-Moore 





5-23 ”Mealy“101” 序 列 识别 器 电路 ， 也 表示 了 用 同步 触发 器 实现 的 Mealy 输出 到 Moore 输出 的 转换 


5.4 计数 器 


在 之 前 的 章节 中 ， 介绍 过 多 种 FSM 设计 技巧 和 实例 应 用 。 计 数 器 是 一 个 能 够 输出 一 组 
有 限 指定 值 的 时 序 电 路 。 例 如 ， 一 个 两 位 的 二 进 制 计 数 器 有 序 并 且 重 复 地 输出 二 进 制 数 00、 
01、10 和 11， 这 个 计数 器 也 称 为 模 4 计数 器 , (3 + 1) mod 4 = 0。 通 常情 况 下 ， 一 个 模 
的 计数 需 会 从 0 开始 计数 到 大- 1， 并 且 重 复 输出 。 

还 有 很 多 其 他 的 计数 器 的 例子 。 一 个 二 进 制 编 码 的 十 进 制 (BCD ) 的 计数 器 会 重复 输出 
序列 0 ~ 9。 格 雷 码 计数 器 会 输出 一 系列 数字 ， 而 且 这 些 数字 中 每 一 个 数字 都 与 前 面 的 立即 
数 仅 有 一 位 不 同 。 例 如 ， 数 字 000、001、011、010、110、111、101、.100， 然 后 后 面 重复 
性 地 又 是 000， 就 可 以 作为 一 种 3 位 格雷 码 计 数 器 的 输出 。 

格雷 码 作 为 一 个 由 完全 独立 的 时 序 电 路 产生 的 外 部 数据 ， 其 两 个 连续 的 数据 之 间 仅 
有 一 位 不 同 的 意义 在 于 降低 可 能 出 错 的 位 数 为 1 位 。 示 例 中 表明 为 什么 在 用 两 个 独立 的 功 
能 时 序 电 路 去 访问 先 人 先 出 缓冲 区 时 使 用 格雷 码 计 数 器 是 必要 的 ， 请 看 练习 5.32 (也 可 看 
5 的 

带 有 异步 高 电 平 有 效 复位 的 位 串 行 模 8 计数 器 的 设计 使 用 了 3 个 1 位 的 计数 
器 片 。 当 上 = 8 时 ， 计 数 器 重复 地 输出 0 ~ 7。 这 将 涉及 同时 带 有 Mealy 输出 和 Moore 输出 
的 混合 FSM 的 设计 。 

解 : 一 个 天 位 的 二 进 制 计数 器 片 必须 完成 两 种 操作 之 一 : 保持 它 的 当前 记 数 或 者 加 1。 
与 最 低 有 效 位 相关 的 那 一 片 必 须 每 个 时 钟 周 期 加 1。 其 他 的 片 只 有 在 收 到 指示 “加 1” 信 号 
的 时 候 才 会 加 1。 图 5-24 为 1 位 二 进 制 计 数 器 片 的 框图 和 有 限 状态 图 。 有 限 状 态 图 中 定义 
了 一 个 带 有 Moore 输出 z-Moore 和 Mealy 输出 o-Mealy 的 混合 FSM。 每 一 片 中 的 输入 信号 i 
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BUNT ATA Ss. WR i=l, XTPAASREN SRI 1. AW, CHRR E. 4 
一 个 o-Mealy 输出 都 连 到 了 它 迅 速 啊 应 的 片 的 :输入 上 。 


i=0/o=0 i=0/o=0 





Z z=0 i21 /o=1 Z=1 


5-24 1 位 计数 器 片 的 框图 和 有 限 状 态 图 


K 5-8 为 由 1 位 计数 需 片 的 有 限 状 态 图 决定 的 NSG 和 OG 转换 ( 真 值 ) 表 。 公 式 (5-6) 
中 列 出 了 关于 z-Moore 输出 、o-Mealy 输出 和 下 一 个 状态 相关 的 变量 d 的 最 小 表达 式 。 图 5-25 
中 给 出 1 it Bas A AA 8 计数 器 的 电路 。 只 要 大 三 2， 而 且 是 2 WA ( 即 k=2”",， 其 
Hm= 1), 任何 的 模 k 计 数 器 都 可 以 由 1 位 的 计数 器 片 设计 而 成 。 


z=q 
o=q'i (5-6 ) 
d=qQ@i 

表 5-8 5-24 中 有 限 状态 图 决定 的 NSG 和 OG 的 真 值 表 


当前 状态 输 入 下 一 个 状态 输 出 


i d z-Moore o-Mealy 


备 
0 0 0 保持 
1 0 0 增 1 





a) 1 位 计数 器 片 b) 位 串 行 模 8 计数 器 
5-25 ”位 串 行 模 8 计数 器 : a) 1 位 计数 器 片 ; b) 由 3 片 组 成 的 模 8 计数 器 is 


带 有 高 电 平 有 效 复位 信号 的 位 串 行 模 6 计数 器 ， 注 意 6 不 是 2 WENT. 

解 : 一 个 模 6 计数 器 重复 输出 0，1，2，3，4，5。 就 像 一 个 模 8 计数 器 ， 它 也 需要 3 
个 触发 器 存储 一 个 0 ~ 5 的 数值 来 作为 它 的 当前 状态 。 然 而 ， 与 模 8 计数 句 有 所 不 同 ， 当 
模 6 计数 器 计数 到 5 时 需要 重新 开始 ， 在 下 一 个 时 钟 周 期 从 0 开始 计数 。 为 了 达到 这 样 的 目 
的 ,一 个 简单 但 不 首选 的 解决 方案 是 一 旦 计数 右 计 数 到 6， 在 下 一 个 时 钟 到 来 之 前 用 一 个 简 
单 的 组 合 电路 的 输出 去 复位 计数 器 。 一 个 简单 的 被 标记 为 aclear(“ a” 表示 异 步 ) 的 信和 号 被 
定义 为 aclear = 22,2, WA) 5-26 所 示 ， 再 加 入 主 设备 异步 信号 reset 异步 地 复位 每 一 片 。 
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clock 





5-26 ”一 个 异步 清 零 的 位 串 行 模 6 计数 器 (不 是 首选 的 方案 ) 


然而 ， 因 为 r = aclear + reset 被 用 来 异步 地 复位 所 有 的 触发 器，Arx (信和 号 + 的 时 延 ) 没 
有 被 记 入 最 小 的 操作 时 钟 周 期 计算 中 。 因 此 ,很 有 可 能 (由 于 信号 传播 延 时 ) 不 是 所 有 的 触 
发 器 都 复位 到 初 值 0。 这 就 是 说 ， 有 可 能 当 aclear = 1 时 ,一 些 触发 器 迅速 实现 复位 ， 导 致 
了 在 所 有 的 触发 器 发 生 复位 前 就 出 现 了 aclear 变 为 了 0 (无 效 )。 因 此 ， 计 数 器 在 下 一 个 时 钟 
周期 内 可 能 会 产生 错误 的 输出 。 

一 个 更 好 的 方案 是 每 次 在 计数 器 输出 5 时 同步 地 复位 这 些 触 发 器 ， 而 这 些 异 步 的 复位 仅 
作为 计数 咒 局 动 时 初始 化 使 用 。 为 了 实现 这 样 的 要 求 ，1 位 的 计数 器 必须 包含 一 个 额外 的 外 
部 输入 ， 例 如 se (AHF), B 5-27 为 改动 过 的 1 位 计数 器 片 的 框图 ， 它 的 有 限 状态 图 也 
表示 了 出 来 。 当 sc = 1 时， 下 个 状态 始终 是 0，o-Mealy 是 一 个 不 关心 的 值 ， 并 与 输入 i 的 

值 无 关 。 为 了 方便 清晰 ， 在 sc = 1 HM HRS i 和 0o 被 省 略 了 ， 没 有 表示 出 来 。 


sc=1 sc=0,i=0/0=0 
sc=0,i=1/0=0 


同步 清 零 1 位 


计数 器 片 





sc=0,i=0/0=0 
5-27 同步 清 零 (sc) 1 位 计数 器 片 的 框图 和 有 限 状 态 图 ( 首选 的 方案 ) 


表 5-9 X NSG 和 OG 的 真 值 表 。 公 式 (5-7) 中 给 出 了 下 一 个 状态 变量 4 以 及 二 Moore 
和 o-Mealy 输出 的 最 小 逻辑 表达 式 。 图 5-28 为 位 片 和 模 6 计数 器 的 电路 。 信 号 sc 被 定义 为 
sc = zi 五， 而 且 每 当 计数 器 输出 5 时 该 信号 被 插入 ， 在 下 一 个 时 钟 周期 内 同步 地 清 零 所 有 的 


d= sc(g ®i) 
o= qi , (5-7) 
z=q 
R 5-9 Æ 5-27 中 1 位 计数 器 片 的 NSG 和 OG RAR 
当前 状态 输 入 输 出 


q sc i eoa z-Moore o-Mealy 
0 ie | | 0 0 
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( BE ) 
当前 状态 输 入 下 一 个 状态 输 出 
q sc i i 2 z-Moore o-Mealy 
0 a ee ee ee ee ee 0 d 
0 a er ee ee ee ee 0 d 
I me ee eee ee ee ae I 0 
I | | I I 
1 I | lk EY ! d 
SO ees ee ee a A I d 











4 
r 


clock 
reset 


Sa 
z1 20 
b) 位 串 行 同 步 清 零 的 模 6 计 数 器 


5-28 ”同步 清 零 位 串 行 计数 器 : a) 改动 后 的 1 位 计数 器 片 ; b) 模 6 计数 器 的 电路 ( 首选 的 方案 ) 
并 


同样 需要 注意 的 是 ， 在 设计 计数 器 时 通常 还 需要 一 个 使 能 信号 ， 使 得 计数 器 只 有 在 被 使 
能 的 情况 下 才能 工作 。 有 两 种 可 选 的 方案 : 1) 在 有 限 状 态 图 建 模 中 包含 计数 器 使 能 信和 叶 ，2 ) 
使 用 带 使 能 端的 触发 器。 前 者 可 以 在 更 快 的 时 钟 下 工作 。 

一 个 位 串 行 模 16 上 /下 计数 器 的 设计 使 用 了 两 片 2 位 的 计数 器 片 。 一 个 上 
/下 计数 器 可 以 向 上 或 向 下 计数 ， 这 取决 于 一 个 控制 信号 的 值 。 向 上 或 癌 下 计数 的 方向 可 


地 
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以 随时 改变 。 


解 : 图 5-29 所 示 为 模 4 上 /下 计数 器 片 的 框图 和 有 限 状 态 图 。 这 种 片 在 向 上 计数 时 重复 
输出 序列 0，1，2，3， 在 向 下 计数 时 重复 输出 序列 3，2，1，0。 信 号 u 代表 计数 器 的 方向 。 
如 果 w = 1， 计数 器 向 上 计数 ， 如 果 w =0, 计数器 向 下 计数 。 对 于 一 个 模 16 的 计数 器 ， 第 一 
片 负责 至 少 两 个 重要 的 位 ， 每 个 时 钟 周期 计数 一 次 ,第 二 片 每 4 个 时 钟 周期 才 计 数 一 次 。 如 果 
插入 输入 信号 i， 在 下 个 时 钟 周期 内 会 使 能 相关 的 片 。 禁 用 第 一 片 将 会 自动 地 禁用 第 二 片 。 然 
而 当 第 一 片 向 上 计数 达到 了 它 的 最 大 值 value = 3 时 ， 或 向 下 计数 达到 了 它 的 最 小 值 value = 0 
时 ， 第 二 片 才 会 被 使 能 。 例 如 ， 在 向 上 计数 时 当前 的 计数 值 count = (0011)， 两 个 片 都 必须 被 
使 能 产生 下 个 计数 值 count = (0100),。 也 就 是 说 ， 第 一 片 必须 向 上 计数 产生 0 = (00)2, (3 + 1) 
mod4=0， 第 二 片 必 须 癌 上 计数 产生 1=(01)z，(0+ 1) mod 4=1, 


输入 /输出 : i, u/o ( x 不 关心 ) 





Z=z1z0 





0,x/0 0,x/0 
5-29 2 位 上 /下 计数 器 片 的 框图 和 有 限 状态 图 


这 个 设计 需要 两 个 触发 器 ， 因 此 会 有 两 个 当前 状态 变量 qi 和 qo， 还 有 两 个 下 一 状态 变 
Ht di Ald). # 5-10 A NSG 和 OG 的 真 值 表 。 然 后 列 出 了 相关 的 Espresso 最 小 化 SOP 人 逻辑 
条 件 。 图 5-30 是 模 16 计数 器 使 用 两 个 计数 器 片 的 最 终 电路 ， 两 个 计数 器 片 分 别 被 标记 为 片 
1 和 片 0。 片 0 表现 为 一 直 使 能 ( 即 i= 1)， 而 片 1 仅 在 向 上 计数 片 0 输出 为 3 或 回 下 计数 
片 0 输出 为 0 时 才 被 使 能 。 


表 5-10 图 5-29 中 2 位 计数 器 片 的 NSG 和 OG 的 真 值 表 


Moore Mealy 


2Z1 Zo oO 
eer 0 0 0 0 
0 0 0 0 0 
A 
0 0 0 0 l 
0 0 0 0 0 
0 1 0 0 
0 l 0 0 
B 
0 1 0 0 
0 ] 0 0 
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clock 
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5-30 由 2 位 上 /下 计数 器 片 实现 的 位 串 行 模 16 上 /下 计数 器 





#mod-4 counter slice NSG and OG modules 
#Input signal labels 
#output bit label 
A A 
so 5 
210 gl g0 ï u 
‘OB di do wl Z0 Ó 
-p 10 
0111 10000 
0010 10001 
1111 00101 
10-1 10000 
一 LO 一 01000 
一 01 一 01000 
11-0 10100 
10—— 00100 
1 一 0 一 10100 
-1— 00010 
e RB 


另外 ， 因 为 所 有 的 计数 器 都 需要 某 种 形式 的 加 法 器 来 表现 出 一 个 已 知 的 功能 ， 所 以 它们 
的 设计 可 以 不 需要 有 限 状态 图 。 这 将 在 下 面 的 实例 中 体现 。 

一 个 位 并 行 的 模 8 向 上 计数 器 ， 其 设计 中 用 到 了 一 系列 已 知 的 组 合 电路 (CC) 
模块 和 一 个 并 行 加 载 寄 存 器 。 

解 : 图 5-31 为 一 个 位 并 行 模 8 向 上 计数 器 的 数据 通路 。 这 个 数据 通路 包括 了 一 个 3 位 
的 二 进 制 加 法 器 ， 一 个 3 位 的 2-1 选择 器 ， 还 有 一 个 带 有 异步 高 电 平 有 效 复位 信和 号 的 3 位 并 
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CT IMA EAE. KS AT aE A (EE a AY FR A ETT AY. MAARA h AF a 
的 值 加 1。 信 号 sc (同步 清 零 ) 控制 着 选择 占 ， 用 以 同步 地 初始 化 计数 需 为 0。 在 每 个 时 钟 
周期 内 ， 如 果 寄 存 器 被 使 能 ， 将 会 加 载 3 位 的 选择 器 的 输出 ， 即 sc = 0 时 的 Z+ 1 的 值 或 者 
sc=1 时 的 0。 


常数 


Carry-out 
(忽略 ) 3 位 无 符号 加 法 器 Carry-in =0 





Z = Z2z1z0 
5-31 同步 清 零 位 并 行 模 8 向 上 计数 器 


计数 器 的 速度 取决 于 加 法 器 的 传播 时 延 。 例 如 ， 进 位 传递 加 法 器 (CPA) 会 产生 较 长 
的 信号 时 延 ， 和 位 串 行 电路 比较 相似 。 另 一 方面 ， 也 可 以 使 用 一 个 更 快 的 加 法 器 ， 比 如 使 
用 超前 进位 (CLA) 加 法 更 去 设计 一 个 高 速 的 计数 器 。 图 5-32 是 由 一 个 3 位 的 CLA 加 法 
器 设计 实现 的 带 有 同步 清 零 的 模 8 向 上 计数 器 的 简化 电路 ， 是 使 用 CLA 加 法 器 的 常数 操 
作 数 (001): 和 选择 器 的 常数 输入 (000), 情况 下 的 CLA 和 选择 器 逻辑 表达 式 的 进一步 简化 
电路 。 





5-32 使 用 简化 CLA 加 法 器 和 简化 选择 器 的 同步 清 零 位 并 行 模 8 向 上 计数 器 a 
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K Tih — A k SRT a, KPA i Alo 接口 信号 ， 而 且 这 应 在 
位 串 行 计数 器 设计 之 前 进行 讨论 。 男 外 ， 位 并 行 (包括 位 并 行 片 ) 方案 ， 尤 其 是 在 大 型 设计 
中 ， 有 一 个 优点 就 是 不 需要 有 限 状 态 图 。 然 而 ， 这 种 技术 需要 设计 师 有 能 力 从 设计 问题 的 描 
述 去 确定 组 合 电路 将 会 表现 出 的 功能 。 在 第 8 章 中 ， 我 们 将 会 通过 这 种 方式 设计 一 个 CPU 
数据 通路 。 


5.5 ”容错 FSM 


容错 FSM 能 够 检测 并 纠正 出 现 的 错误 ， 这 种 错误 的 出 现 不 是 因为 工业 上 或 设计 上 的 错 
误 ， 而 是 工作 过 程 中 随机 的 环境 因素 。 通 常情 况 下 ， 这 些 因素 会 影响 存储 单元 ， 比 如 锁 存 
at, AAC AS AAA. FA 9 位 表示 的 触发 器 的 状态 可 以 突然 间 由 0 变 为 1 或 由 1 变 为 0。 一 个 
错误 可 以 使 FSM 转换 到 一 种 无 效 的 状态 ， 进 而 导致 电路 故障 。 一 个 错误 还 可 以 导致 计数 器 
突然 输出 一 个 错误 的 值 ， 致 使 序列 识别 器 检测 一 个 错误 的 序列 ， 或 者 跳 过 而 未 能 检测 到 一 个 
正确 的 序列 等 。 

通常 情况 下 ， 错 误会 影响 到 一 位 或 多 位 。 然 而 ， 一 位 的 错误 更 常见 。 容 错 FSM 需要 额 
外 的 硬件 去 实现 元 余 ， 能 够 检测 并 纠正 错误 引起 的 故障 。 例 如 ， 容 错 FSM 需要 额外 的 触发 
器 和 额外 的 组 合 电路 。 额 外 触发 器 的 数量 取决 于 最 初 的 有 限 状 态 图 中 有 多 少 状 态 。 例 如 ， 设 
计 一 个 一 位 容错 FSM， 每 一 个 二 进 制 状态 标识 与 其 他 的 标识 相 比 至 少 有 3 位 不 同 。 通 常情 
况 下 ， 两 个 二 进 制 数 间 不 同 的 位 数 叫 作 汉 阴间 距 。 而 且 ， 如 果 一 系列 数 中 每 一 个 数 都 与 其 他 
的 数 有 至 少 三 个 汉 明 间距 ， 那 么 这 些 数 被 称 为 汉 阴 码 。 

例如 ， 如 果 一 个 有 限 状 态 图 有 三 种 状态 ， 那 么 一 个 一 位 容错 FSM 必须 使 用 5 位 的 汉 明 
码 ， 如 00000、00111 和 11001 来 标识 这 三 种 状态 。 注 意 ， 任 何 三 个 5 位 的 汉 明 码 的 汉 明 间 
距 是 3 或 者 更 多 。 码 00000 A 00111 的 前 三 位 不 同 ， 因 此 它们 的 汉 明 间距 是 3。 码 00111 
和 码 11001 的 不 同位 是 1、2、3 和 4 (小 端 )， 因 此 它们 的 汉 明 间距 是 4。 任 何 两 个 码 的 汉 明 
间距 是 它们 的 位 异 或 结果 中 1 的 个 数 。 表 5-11 表示 了 三 个 码 00000、00111 和 11001 计算 后 
的 汉 明 间距 。 


表 5-11 每 对 码 的 汉 明 间距 


Code 1 cn 


假设 一 个 错误 导致 码 00000 的 位 2 由 0 变 为 了 1， 产生 了 一 个 无 效 的 码 00100。 这 个 新 
的 码 与 有 效 的 00000 之 间 的 汉 明 间距 是 1， 但 是 与 有 效 的 码 00111 和 11001 中 每 一 个 的 汉 明 
间距 是 2 或 者 更 多 。 因 此 ， 这 个 无 效 的 码 与 有 效 的 码 00000 之 间 的 距离 比 与 其 他 两 个 有 效 码 
之 间 的 距离 更 小 一 些 。 因 此 ， 这 个 由 错误 导致 的 异常 可 以 被 检测 出 来 ， 并 能 加 以 纠正 ， 即 将 
无 效 的 码 00100 由 有 效 的 码 00000 替换 掉 。 

5-33 中 给 出 了 由 Mealy 有 限 状 态 图 得 到 的 容错 FSM 的 设计 。 如 图 中 所 示 ， 
每 个 状态 都 由 一 个 5 位 的 汉 明 码 标识 。 

解 : 表 5-12 为 使 用 5 个 触发 器 实现 的 容错 FSM 的 NSG 和 OG 真 值 表 。 在 这 个 表 中 ， 所 
有 一 位 无 效 的 当前 状态 标识 和 相应 有 效 的 状态 标识 是 一 样 的 。 例 如 ， 因 为 每 一 个 无 效 的 标识 
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00001, 00010. 00100, 01000 和 10000 与 有 效 的 码 00000 是 1 个 汉 明 间距 ， 所 以 它们 都 被 视 
为 状态 A。 在 这 个 表 中 的 前 6 栏 中 ， 如 果 x* = 0， 那 么 下 个 状态 是 00000 (状态 A)。 因 此 ， 信 
号 gay 93x qas qi 和 Qo 中 任意 的 1 位 变化 都 不 会 改变 FSM 的 状态 。 最 终 的 电路 没有 展示 出 来 。 
然而 ， 可 以 通过 使 用 Espresso 最 小 化 软件 来 简化 真 值 表 ， 获 得 电路 所 需 的 逻辑 表达 式 。 另 外 ， 
电路 可 以 在 Verilog 中 通过 使 用 case 语句 进入 真 值 表 来 给 电路 建 模 ( 见 练习 5.25). 





5-33 ”使 用 5 位 汉 明 状态 码 作 为 状态 标识 的 有 限 状 态 图 
表 5-12 5-33 中 有 限 状 态 图 决定 的 容错 的 NSG 和 OG 真 值 表 


当前 状态 输 入 下 一 个 状态 输 出 
q4 q3 q2 qi qo x d4 ds d2 dı do Z 
0 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 1 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 0 0 0 0 
0 0 1 0 0 0 0 0 0 0 0 0 
0 1 0 0 0 0 0 0 0 0 0 0 
1 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 l 0 0 1 1 1 0 
0 0 0 0 1 1 0 0 1 ] | 0 
0 0 0 1 0 l 0 0 | l l 0 
0 0 1 0 0 | 0 0 1 | l 0 ® 
0 1 0 0 0 l 0 0 l ka 2 0 
1 0 0 0 0 1 0 0 l 1 l 0 
0 0 1 l 1 0 1 | 0 0 ] 0 
0 0 l 1 0 0 1 ] 0 0 l 0 
0 0 1 0 1 0 1 1 0 0 l 0 
0 0 0 1 1 0 l l Ü.: , 6 1 0 
0 1 1 1 1 0 l l 0 0 1 0 
l 0 1 1 l 0 1 1 0 0 1 0 
0 0 1 1 1 l 0 0 1 l 1 0 
0 0 1 1 0 1 0 0 1 1 1 0 
0 0 l 0 1 l 0 0 1 | 1 0 
0 0 0 1 1 l 0 0 l 1 l 0 g 
0 1 1 1 1 1 0 ee g 1 1 0 
1 0 1 1 1 1 0 0 1 1 1 0 


apek: daga OOOO Oa 


( 2 ) 
当前 状态 输 入 下 一 个 状态 输 出 
q4 q3 q2 qı qo x da ds dz dı do Z 
| a 0 0 1 0 0 0 0 0 0 0 
1 1 0 0 0 0 0 0 0 0 0 0 
1 | 0 | 1 0 0 0 0 0 0 0 
1 1 1 0 1 0 0 0 0 0 0 0 
1 0 0 0 ] 0 0 0 0 0 0 0 
0 1 0 0 1 0 0 0 0 0 0 0 
1 1 0 0 1 1 0 0 1 1 1 1 
1 1 0 0 0 1 0 0 l 1 ] 1 
l 1 0 1 1 1 0 0 1 1 1 1 
l 1 1 0 1 1 0 0 1 1 1 1 站 
1 0 0 0 1 1 0 0 1 1 1 1 
0 1 0 0 1 1 0 0 l 1 1 1 
w 


如 果 通 过 单独 控制 的 输入 信号 来 复位 或 预 置 每 一 个 触发 器 ， 那 么 就 可 以 仿真 一 个 简单 
的 错误 。 人 例如， 假设 当前 的 状态 是 00000， 通 过 使 用 相关 的 预 置信 号 改变 状态 为 00100 (一 
个 无 效 的 状态 )， 那 么 我 们 说 ， 一 个 错误 被 引入 位 qg Po EWR 5-12 中 所 示 ，FSM 应 当 在 
x = 0 时 由 无 效 状态 正确 地 转换 到 有 效 状 态 00000 F, RE x = 1 时 由 无 效 状态 正确 地 转换 
到 有 效 状 态 00111 中 。 因 此 ， 这 个 电路 将 能 检测 并 纠正 一 位 错误 。 注 意 在 这 种 情况 中 ， 检 
测 和 纠正 机 制 将 被 蔡 人 在 NSG 和 OG 模块 中 。 接 下 来 将 会 讨论 另外 一 种 技术 ， 这 种 技术 将 
会 把 非 容错 处 理 的 时 序 电 路 转换 为 一 位 容错 的 电路 ， 并 且 ， 这 种 技术 不 需要 建立 大 型 的 真 
值 表 。 

另外 ， 通 常 而 言 ， 很 容易 想 出 一 个 小 的 汉 明 码 数字 去 设计 实现 一 个 小 的 容错 FSM。 然 
而 ， 使 用 即将 介绍 的 汉 明 编码 方案 为 任意 规模 有 限 状 态 图 生成 尽 可 能 多 的 必要 汉 明 码 会 更 为 
合理 。 


汉 明 编码 方案 


汉 明 码 可 以 用 来 检测 并 纠正 一 位 错误 或 检测 两 位 错误 。 这 些 错 误 可 能 发 生 在 数字 通信 
的 数字 传输 或 者 在 数据 存储 中 ， 比 如 触发 器 或 内 存 中 。 每 个 汉 明 码 中 包括 一 定数 量 的 奇偶 校 
验 位 和 一 定数 量 的 数据 位 。 奇 偶 校 验 位 可 以 被 计算 为 奇 校 验 或 偶 校 验 。 例 如 一 个 7 位 的 汉 明 
码 ， 这 些 位 从 右 到 左 被 编号 为 1 ~ 7， 其 中 , 位 1、2 和 4 被 保留 为 三 位 偶 校 验 位 ， 而 位 3、5、 
6 和 7 被 作为 4 位 数据 位 。 公 式 (5-8 ) 用 来 计算 从 数据 位 ds. ds, de 和田 得 到 的 偶 校 验 位 
Pix P2 和 pao 现在 假设 d; = 1，4; = 1 和 qd;= 0。 校 验 位 pi 作为 一 个 侦 校 验 位 必须 是 0， 这 样 
di. d5, d; 和 pi 中 1 SE BL. 如 果 d;= 1， d;=1 #ild;=1, 那么 pi 就 得 是 1。 
pı = d; Od; ® d, 
P = d; Od, Od, (5-8) 
Pa = ds Od, ® d, 
给 出 一 个 4 位 的 数 1101， 它 的 7 位 汉 明 码 由 公式 〈5-8 ) 决定 ， 如 下 所 示 : 
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Api: d=1,a=0,4a=1,d,=—1 
MKB: P = 1Q0@1 =0 


p=1@1@1=1 
p=0@1@1 =0 


这 个 7 位 的 汉 明 码 被 组 织 为 dydedspsd3pzp1 = 1100110。 校 验 位 pi 由 数据 位 dz, ds Fl d} 
决定 。 这 些 数 据 位 分 别 在 汉 明 码 的 第 011 (3 ) 位 、 第 101 (5) 位 和 第 111 (7) 位 。 注 意 每 
个 位 置 数字 的 第 一 位 都 是 1， 已 由 下 划 线 表示 了 出 来 。 同 样 ， 决 定 校 验 位 pa 的 数据 位 于 位 
置 011 (3) 110 (6) 和 111 (7) 上 。 通 常 而 言 , 上 E= 0，1，2，… 时 ， 相 应 校 验 位 pz 分 别 
由 位 数 所 在 位 置 数 中 第 位 都 为 1 的 那些 位 数 进行 异 或 得 到 。 例 如 , k=2, pi 由 异 或 所 有 位 
置 为 5 (101)、6 (110) 和 7 (111) 上 的 位 数 所 得 ， 因 为 5 是 4+1, 6 是 4+2, 7 是 4+3， 
4 是 它们 的 共有 值 。 

校 验 位 用 来 确定 错误 位 的 位 置 (如 果 有 的 话 )。 例 如 一 个 7 位 的 汉 明 码 dided;psd3pxp1 = 
1001100, 假设 这 个 汉 明 码 被 无 线 传输 到 一 个 很 远 的 目的 地 。 假 如 收 到 的 汉 明 码 被 表示 为 
dydsqd;psdp2p1 = (1101100),， 即 位 qe CA FRR) 上 有 一 个 错误 。 接 收 的 校 验 位 和 数据 位 分 别 


是 pappi = 


100 和 dyqdsqdsqds = 1101。 通 过 公式 (5-8 ) 可 以 得 到 新 的 校 验 位 ， 校 验 位 pi, p3 和 


Z 由 接收 到 的 数据 位 dds ds ds= 1101 计算 可 得 : 

pi = d;®d;®d;=1 091 =0 
P2=4,04,04,=101@1 =1 

p4 = d;d Od, =09101 =0 

A (5-9) 用 来 确定 出 错位 的 位 置 ， 表 现 为 一 个 3 位 的 数值 已 = ee 


E = ezeleo = P4P2Pi1® PaPo?P 1 (5-9 ) 
也 就 是 ， 
E = e,e,e, = 010 中 100 
= 110 
= 6( 出 错位 的 位 置 ) 
6 表示 接收 到 的 汉 明 码 在 位 数 6 上 有 错误 发 生 ， 应 当 把 这 位 中 的 1 改 为 0， 纠 正 后 的 汉 
明码 1001100 才 是 所 发 送 的 。 


通过 另外 一 个 整体 校 验 位 c， 可 以 检测 到 汉 明 码 的 双 位 错误 ， 而 不 是 纠正 。 公 式 (5-10) 
定义 了 一 个 整体 偶 校 验 位 。4 MRA cL pa pa pi 和 4 位 数据 位 dy, de, ds. ds 组 成 了 一 
个 8 位 的 汉 明 码 。 表 5-13 给 出 了 一 些 汉 明 码 位 数 的 例子 。 

c = d, Od; ® d; Op, Od, ® Pr ® Pi (5-10) 


5-13 汉 明 编码 位 数 举例 


4 位 ， 
5 fi, 
6 fi, 
TIE, 
8 位 ， 


Pix 
Pin 
Pix 
Pix 
Pix 


校 验 位 的 位 数 


y Phn 
» Phn 
、 Pa, 
» Par 


> 


D 


> 


` pa M c 


ps 和 c 

ps、 Pis 和 'c 

Ps, Pios pa 和 

Ps. Piss P32x Poa Fil c 


最 大 的 汉 明 编码 位 数 
8 位 ， 其 中 最 多 4 位 数据 位 
16 位 ， 其 中 最 多 11 位 数据 位 
32 位 ， 其 中 最 多 26 位 数据 位 
64 位 ， 其 中 最 多 57 位 数据 位 
128 位 ， 其 中 最 多 120 位 数据 位 


WCB: PB SB 


表 5-14 给 出 了 使 用 EE、c' (接收 到 的 整体 校 验 位 ) Alc” (从 收 到 的 数据 中 计算 而 得 的 整 
体 校 验 位 ) 的 汉 明 编码 方案 (HCS) 的 规则 。 当 c' Alc" 相等 ,而且 = 0 时， 表示 接收 到 的 
汉 明 码 中 没有 错误 。 如 果 Mec" 相等 , (LE #0, 表示 在 收 到 数据 中 有 两 位 不 可 纠正 的 错 
Ro MWR | Ac" HE=0, PRN RETER RA, WR c' Ac", MAEAO, MA 
表示 发 生 了 错误 。 如 果 3 位 或 3 位 以 上 发 生 了 错误 ，HCS 将 会 把 错误 〈 错 误 性 地 ) 解释 为 
一 个 单位 错误 或 一 个 双 位 错误 。 


表 5-14 HCS ( 汉 明 编码 方案 ) 的 规则 
接收 到 的 整体 校 验 位 进行 运算 vs 由 接收 到 的 数据 位 c O e 所 得 & X 
0 没有 错误 
0 | 一 个 两 位 不 可 纠正 的 错误 
1 接收 到 的 整体 校 验 位 c' 出 错 
1 位 置 上 出 现 一 位 可 纠正 的 错误 


例 5-7 中， 我们 选择 了 三 个 汉 明 码 00000、00111 和 11001 来 标识 图 5-33 中 有 限 状态 图 
的 三 种 状态 。 这 里 ， 我 们 将 会 解释 HCS 是 如 何 使 用 汉 明 码 系 统 地 对 有 限 状 态 图 的 状态 进行 
编码 的 。 假 设 图 5-33 PARA A, BAC 被 2 位 的 二 进 制 数 进行 了 初始 化 编码 ， 其 中 siso = 
00 为 状态 A ,01 为 状态 B,10 为 状态 C。 在 用 两 位 数据 位 作为 2 位 状态 标识 时 ， 公 式 (5-11) 
使 用 数据 位 a,=0, d=0, ds= 5s 和 a; = So 来 计算 校 验 位 。 

Pi = So OS, 
P2 = So ( 5-11) 


例如 ， 当 siso = 01 时 , pi = 1， p=1, ps = 0， 对 应 的 汉 明 码 是 sip4sopzpi = (00111) 20 
K 5-15 给 出 了 校 验 位 计算 的 一 个 总 结 。 可 以 看 到 ， 计 算出 的 汉 明 码 和 例 5-7 中 所 使 用 的 一 样 。 


表 5-15 由 2 位 数字 00、01 和 10 生成 的 5 位 汉 了 明码 


ear sa 
ss | p p ssbb 


对 于 例 5-7 中 讨论 的 容错 FSM， 它 首先 包含 一 个 作为 非 容 错 电路 的 FSM， 然 后 在 电路 
中 又 合并 了 一 个 额外 的 电路 ， 用 于 实现 汉 明 码 检 错 与 纠 错 机 制 。 例 如 ， 在 例 5-7 中 的 容错 
FSM 设计 问题 中 ， 首 先 ，FSM 被 设计 为 一 个 非 容 错 FSM。 这 将 需要 两 个 触发 器 (两 个 状态 
位 )、 一 个 NSG 和 一 个 0G。 假设 由 NSG 产生 的 两 个 下 一 状态 位 被 标记 为 sı 和 so。 一 个 容 
错 的 电路 将 需要 6 个 触发 器 ， 分 别 作为 两 个 状态 位 5) M so EAREN pi pi M ps, WA 
一 个 整体 校 验 位 c。 

假设 这 6 个 触发 器 的 g 位 分 别 被 表示 为 ge ~ qs。 对 于 一 个 容错 的 设计 ， 这 些 触发 器 可 
以 被 解释 为 一 个 发 送 介质 和 一 个 接收 器 。 这 些 4 位 通过 触发 器 被 “发 送 ” 出 去 ， 然 后 作为 gq 
位 被 “接收 ”到 。 简 单 地 反 转 一 个 9 位 便 可 能 造成 错误 。 在 发 送 端 ， 这 6 个 状态 位 (d's) 将 
被 连接 到 信和 号 sin so 和 4 SRI pi. po. pac 上 。 在 接收 端 ， 由 9 表示 两 个 当前 状态 位 
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Si. so A 4 HEME A REAL pi. pb. ps Alc’. X 5-16 总 结 了 汉 明 码 和 触发 器 输入 输出 的 
关系 。 


表 5-16 使 用 汉 明 码 检 错 与 纠 错 机 制 将 FSM 转换 为 容错 FSM 


触发 器 的 d 位 (“发送 的 ”) | 触发 器 的 9 位 (“接收 的 ”)| 由 接收 的 状态 位 计算 所 得 的 校 验 位 错误 位 置 


mn | Wim | mco@w | On 


一 个 明显 的 容错 FSM 的 设计 需要 两 个 额外 的 模块 : 奇偶 发 生 器 (PG) 模块 和 检 错 与 纠 
fe (EDC) 模块 。PG 模块 将 会 输入 sı 和 so， 然后 产生 4 个 偶 校 验 位 p!、p;、p4 Alc. EDC 
将 会 输入 位 pi 和 so。(“ 接 收 ” 的 下 一 状态 位 )， 然 后 产生 校 验 位 ph、p? 和 pp$。 如 果 c' 关 c"， 
Wi ps. po AM po WR pt. ps 和 pp% 将 被 用 来 计算 错误 位 置 E (公式 (5-9 ))。 

MREAO, EH 3-8 译 码 器 ,，E 将 被 译 码 为 7 个 输出 信号 (1 ~ 7) 中 的 一 个 ， 而 且 
是 仅 有 的 一 个 有 效 信和 号。 如果 c' 关 ce"， 这 个 有 效 的 编码 信号 (如 果 有 ) 将 随后 通过 异 或 门 被 
用 来 纠正 错误 位 。 然 而 ， 这 种 合成 的 FSM 将 比 由 例 5-7 中 真 值 表 和 SOP 或 POS 表达 式 设 计 
实现 的 FSM 的 传播 延 时 更 长 一 些 。 


5.6 时序 电路 的 时 序 


触发 器 共享 同一 个 时 钟 信 号 ， 这 样 它 们 在 采样 时 钟 边 沿 接收 时 大 约 在 同一 个 时 刻 ， 以 保 
证 在 下 一 个 采样 边沿 到 来 之 前 所 有 的 触发 器 都 能 同时 对 它们 各 自 的 输入 进行 采样 。 人 否则， 如 
果 时 钟 信号 在 向 触发 器 的 传播 过 程 中 有 延 时 存在 ， 那 么 一 些 触发 器 比 其 他 的 触发 锅 接 收 到 的 
采样 时 钟 晚 一 些 的 情况 是 可 能 存在 的 。 例 如 图 5-34 中 所 示 ，clkl 先 到 达 ， 一 些 延 时 (由 于 
信和 号 线路 延 时 ) 之 后 clk2 到 达 第 二 个 触发 器 (FF2 )。 采 样 时 钟 边缘 到 达 不 同 触 发 器 的 时 间 
差异 称 为 时 钟 脉冲 相位 差 (t,)。 





5-34 ”描述 一 个 时 钟 内 可 能 存在 的 时 钟 相 位 差 问题 。 如 果 到 达 FF2 的 采样 时 钟 边缘 较 晚 ， 信 号 ob 
可 能 会 发 生变 化 


时 钟 相位 差 会 导致 很 多 问题 出 现 。 更 早 一 些 收 到 采样 时 钟 边缘 的 触发 器 对 输入 端 进行 采 
样 ， 会 比 其 他 触发 器 更 早 地 改变 它们 的 输出 。 最 终 ， 有 可 能 出 现 最 新 采样 的 输入 会 部 分 改变 
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或 全 部 改变 那些 还 未 完成 输入 采样 的 触发 器 的 输入 端 值 。 反 过 来 ， 这 可 能 会 导致 时 序 (建立 
时 间或 保持 时 间 ) 冲突 或 造成 多 功能 电路 中 无 效 的 状态 转换 。 

在 这 个 图 中 ， 当 FF1 收 到 clkl 的 采样 边沿 时 ， 它 开始 对 de 进行 采样 ， 然 后 将 
qi BA a. 4 FF2 收 到 clk2 的 采样 边沿 时 ， 它 应 当 采 样 ds， 然后 改变 qg 为 
4 。 然 而 ， 由 于 时 钟 相 位 差 ， 三 种 情况 之 一 有 可 能 会 发 生 ， 见 图 5-35. 


clk1 


clk2 


d1 


q1 clk1 使 得 d1 变 化 ， 从 而 改变 q1 


情景 a: d2 aoe m 造成 FF2 的 建立 时 间或 保持 时 间 不 足 
1 Ad2 ~=T., 







ar 40 9q1 的 变化 导致 d2 快 速 变 化 ， 造 成 功能 错误 ， 


q2 会 加 载 d2 的 最 新 值 ， 而 不 是 当前 值 
了 Se 


新 d2 


情景 b: d2 | 


情景 c: d2 = 









| Ad2> Ta 


ie) 门 六 a. 时 钟 相 位 差 造成 FF2 的 建立 时 间或 保持 时 间 不 足 
q2 #q2 = #d2 O 时 钟 相位 差 造 成 不 正确 的 状态 变化 
| 9e=9e=59 c. 电路 工作 正常 


5-35 一 个 时 钟 内 由 时 钟 相位 差 造成 影响 的 时 序 图 (图 5-34 中 电路 ) 


情景 a : d 的 传播 时 延 与 时 钟 相位 差 是 相等 的 ( A 4 S15). EX, 2 FF2 1 
在 采样 时 ，d, 有 可 能 还 在 变化 ， 因 此 有 可 能 造成 FF2 的 建立 时 间或 保持 时 间 不 足 。 

情景 b : d, 的 传播 时 延 比 时 钟 相位 差 小 ( A q; < ts). FEM, gi 将 会 在 FF2 
的 clk2 采样 边沿 到 来 之 前 将 2 BO dy, ORES SBE FFI 加 载 dr 时 ，FF2 加 
载 4”。 这 将 导致 无 效 的 状态 转换 ， 造 成 功能 错误 。 

情景 c : d 的 传播 时 延 比 时 钟 相位 差 大 ( A 4, > ts)。 在 这 种 情况 中 ，clk2 的 采样 边沿 
会 在 qi 将 de" 改 为 dy” 之 前 到 达 FF2， 因 此 ，FF2 将 会 正常 地 加 载 a", ARIE HS 
LiF. 

图 5-34 的 电路 仅 包含 两 个 触发 器 。 通 常情 况 下 ， 一 个 电路 可 能 包含 多 个 触发 器 ， 每 个 触 
发 大 的 gd 输入 端 可 能 取决 于 一 个 或 多 个 g。 在 这 种 情况 中 ， 为 了 让 电路 正常 工作 ，g"e” 可 以 
改变 were' 的 最 早 时 间 是 最 小 的 clock 到 g 的 时 间 ( Teg- min) 和 最 小 的 电路 传播 时 延 ( Toa- min) 
之 和 。 式 〈5-12 ) 给 出 了 保持 电路 正确 操作 的 必要 条 件 : 

Fig i di ( S-12 ) 


TW, P| 将 会 改变 太 快 ， 比 如 图 5-35 中 的 情景 a 和 情景 b， 这 将 会 导致 建立 时 间或 
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保持 时 间 不 足 (情景 a) 或 造成 功能 错误 (情景 b)。tc 与 Tog - min + Tpd- min 的 距离 大 小 可 以 被 
定义 为 inm RIFI), ERREA (5-13) 中 表示 了 出 来 : 
Eatin FT To Th ( 5-13 ) 
图 5-36 是 另外 一 个 可 能 带 有 时 钟 相位 差 的 电路 。 在 这 种 情况 中 ，clk1l 的 采样 边沿 会 在 
200] clk2 的 采样 边沿 到 达 FF1 之 前 到 达 FF2。 


FF1 





5-36 cilk1 的 当前 采样 边沿 和 下 个 采样 边沿 之 间 可 能 存在 的 时 钟 相 位 差 问 题 。 当 clk1 的 下 个 采样 
边沿 到 达 FF2 时 ， 信 和 号 o 可 能 正在 变化 中 


在 这 个 图 中 ,在 clk2 的 采样 边沿 到 达 FFI 的 时 间 和 下 一 个 clkl 的 采样 边沿 到 达 FF2 的 
时 间 之 间 ， 时 钟 相位 差 可 能 会 造成 两 种 可 能 的 情景 。 这 两 种 情景 将 在 图 5-37 中 介绍 并 加 以 
描述 : 


a 可 能 在 FF1 上 的 建立 
情景 a: d2 mis Sa RSH AZ 


情景 b: d2 加 





n "Dele a. 建立 时 间或 保持 时 间 不 足 
q2 q2atT1 Se PERE b. 正常 工作 


5-37 clk1 的 当前 和 下 个 采样 边沿 之 间 相位 差 影 响 的 时 序 图 (图 5-36 电路 ) 


At Fp BB: dr BE Tt 157 


情景 a : d 的 传播 时 延 和 时 钟 周期 (r) 与 时 钟 相位 差 之 间 的 差 值 是 相等 的 ( 即 Ad, St 
-Tes)。 在 这 种 情况 中 ， 当 clkl 的 下 个 采样 边沿 到 达 FF2 AY, d 可 能 还 在 变化 中 。 因 此 ， 
qd 可 能 会 造成 到 达 FF2 的 建立 时 间或 保持 时 间 不 足 。 

情景 b : dı 的 传播 时 延 比 时 钟 周 期 (r) 与 时 钟 相位 差 之 间 的 差 值 小 ( 即 Ad, < 1-15). 
在 这 种 情况 中 ，4,” 在 clkl 的 下 个 采样 边沿 到 来 之 前 保持 稳定 。 因 此 ，FF2 会 如 预期 的 那 
样 加载 we""。 所 以 ， 这 个 电路 将 会 正常 工作 。 

考虑 图 5-34 中 的 电路 。 假 设 t= 0.65ns, Ac =0.25ns, À aey = 0.30S, Ts = 
0.05ns, Te = 0.05ns。 画 一 个 时 序 图 并 讨论 是 否 存 在 由 时 钟 相位 差 导致 的 问题 。 

fae: 时 序 图 如 图 5-38 所 示 。 信 号 de 在 clkl 的 上 升 沿 时 被 采样 ， 因 此 在 clkl 边沿 之 
后 的 Teg = 0.05ns 处 qi” 变 成 了 dye, CAT, gi” 开始 改变 do, Mogi 变 为 qi 开始 计 
Ht, dy" 需要 A = 0.25ns 的 时 间 去 改变 为 &""。 这 时 的 时 间 是 Ace + teg， 或 者 说 0.3ns。 
因此 ， 当 FF2 开始 采样 画 时 ， 到 将 会 变化 ， 最 终 导致 在 FF2 的 建立 时 间 不 足 。 


一 一 -一 一 一 = 









PEPATE PRE Ng Oe CAR Re A D VE LE AE A A EE Su Reh obes TA I L O NEE AA S $ 
clk1 \ 
T= 0.3ns 
da—— | 
Teq = 0.05 ns 
d1 
a fe ck ER KEEA 
Ad2 = 0.25 ns 
q2 当前 q2 上 建立 时 间 不 足 
5-38 ”由 时 钟 相 位 差 造成 的 建立 时 间或 保持 时 间 不 足 的 时 序 图 z 


5.6.1 和 带 有 了 时钟 相位 差 的 时 钟 频率 评估 

总 的 估计 的 最 小 时 钟 周期 已 在 第 4 章 中 介绍 过 ,但 没有 考虑 由 时 钟 相位 差 导 致 的 时 间 损 
失 。 如 图 5-37 所 示 ， 在 下 个 时 钟 边 沿 到 来 之 前 ， 信 和 号 稳定 所 需 的 总 时 间 减 少 等 于 一 个 时 钟 相 
位 差 的 长 度 。 这 就 意味 着 最 小 的 时 钟 周 期 必须 包含 由 时 钟 相位 差 导 致 的 延 时 ， 如 公式 (5-14) 
[1] 所 示 。 

和 (5-14 ) 

56.2 异步 接口 

取决 于 外 部 输入 的 时 序 电 路 (如 图 5-36 中 的 di) 期 望 外 部 的 信号 总 是 在 与 时 钟 采样 边 
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沿 有 关 的 合适 的 时 间 发 生变 化 。 然 而 ， 如 果 是 由 输入 设备 产生 的 外 部 信号 可 能 会 随时 变化 
(例如 键盘 )， 或 者 是 使 用 不 同时 钟 源 的 另 一 个 时 序 电路 的 输出 ， 那 么 最 终 可 能 会 造成 时 序 电 
路 中 触发 器 的 建立 时 间或 保持 时 间 不 足 ， 导 致 亚 稳 态 或 可 能 的 故障 。 

如 图 5-39a 所 示 ， 一 个 解决 这 种 问题 的 建议 性 方案 [2-3] 是 在 外 部 输入 进入 目标 时 序 电 
路 之 前 对 它们 进行 采样 。 在 这 个 图 中 ， 外 部 输入 接 到 同步 触发 器 上 。 这 样 在 下 个 时 钟 边沿 到 
来 之 前 ， 由 输入 导致 的 任何 可 能 的 亚 稳 态 都 将 因为 同步 触发 器 而 被 解决 。 也 就 是 说 ， 如 采 
输入 满足 不 了 同步 触发 器 的 建立 时 间或 保持 时 间 而 导致 触发 器 输出 振 蔓 〈 亚 稳 态 )， 预 计 在 
下 个 时 钟 边沿 到 来 之 前 ， 振 划 的 输出 将 稳定 于 1 或 0。 因 此 ， 这 个 时 序 电路 将 输入 同步 的 信 
号 ， 从 而 可 能 避免 本 身 的 亚 稳 态 性 。 这 些 可 由 图 5-39a 中 电路 对 应 的 图 5-40 的 时 序 图 示例 
得 到 说 明 。 而 且 ， 可 以 设计 一 个 同步 触发 器 ， 这 样 当 外 部 输入 在 不 合适 的 时 间 发 生变 化 造成 
建立 时 间或 保持 时 间 不 足 时 ， 它 的 输出 能 够 快速 稳定 [4]。 
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外 部 信和 号 触发 器 Rrra obi 
( 可 能 与 = 
时 钟 不 同步 ) 





clock 


D ser Q 
5 
CLR O 


a) 一 个 同步 的 触发 器 


reset 





p 外 部 信号 
外 部 信号 两 个 同步 的 触发 器 。 ( 与 时 钟 同步 ) 
( 可 能 与 \ | 

时 钟 不 同步 ) 


clock 


reset 


b) 两 个 同步 的 触发 器 


图 5-39 外 部 输入 同步 [1]: a) 使 用 一 个 同步 触发 器 ; b) 使 用 两 个 触发 器 允许 最 大 
203 的 亚 稳 态 解决 时 间 


然而 ， 为 了 防止 图 5-39a 同步 触发 器 的 输出 中 可 能 存在 的 亚 稳 态 进入 时 序 电路 中 ， 图 5-39b 
中 使 用 了 两 个 同步 触发 器 。 


ACB: DOR eee SD 


clock 






振动 停止 ， 假 设 值 为 1 


a 


( P 外 部 输入 外 部 输入 进入 目标 时 序 电路 


图 5-40 ”一 种 解决 外 部 亚 稳 态 输入 方案 的 示例 时 序 图 


5.7 ”硬件 描述 语言 模型 

例 5-9 和 例 5-10 中 介绍 了 Mealy 和 Moore FSM 的 HDL 建 模 。 

下 面 给 出 例 5-1 中 检测 重 琶 序列 “101” 的 Moore 时 序 识 别 器 的 Verilog 行为 
建 模 。 这 里 的 代码 被 分 成 如 下 的 三 部 分 : 

第 1 部 分 代码 : NSG 的 行为 描述 。 它 描述 了 识别 器 有 限 状 态 图 的 行为 ， 其 中 有 限 状 态 
图 由 被 标识 为 A ~ D 的 4 个 状态 组 成 。 

第 2 部 分 代码 : OG 的 行为 描述 。 它 描述 了 检测 信号 为 “101” 序 列 的 状态 ， 其 中 识别 
名 输出 为 1。 

第 3 部 分 代码 : 带 有 异步 复位 功能 触发 器 的 行为 描述 。reset 有 效 时 ，FSM 被 初始 化 为 
初始 状态 A。 

HDL 建 模 


//A Moore sequence recognizer that detects the overlapping 
//sequence “101”. 
//Using binary encoded state labels 
module moore seq 
( 
input clock, reset, x, 
output reg z 
F 
//assign binary encoded codes to the states A through D 


parameter A = 2"b00, 
B = 2'b01, 
C= IDIO, 
D = 2° bills 


reg [1:0] current_state, next_state; 


//Section 1: Next state generator (NSG) 
always@ (*) 
begin 
casex (current state) //ignore unknown and high 
//impedance (Z) inputs 


A: if (x = 1) 
next state = B; 


else 
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next state = A; 
B: if (x = 1) 
next _state = B; 
else 
next_state = C; 
C: if (x = 1) 
next_state = D; 
else 
next_state = A; 
D: if (x = 1) 
next _state = B; 
else 
next state = C; 
endcase 
end 


//Section 2: Output generator (OG) 
always@ (*) 


begin 
if(current_state = D) 
z = i; 
else 
z = 0; 
end l 


//Sections 3: The flip-flops 


always@(posedge clock, posedge reset) 


begin 
if (reset = 1) 
current state <= A; 
else 
current_state <= next_state; 
end 
endmodule 


仿真 测试 台 


“include “moore_seq.v” 
module tester () ; 
reg clock, reset, x; 


wire Z; 

moore seq ul(clock, reset, x, Z); 
initial begin 

Smonitor(“%t4d: z = tb”, Stime, z); 


clock = 0; 

reset = 1; //reset the flip-flops 
x = 0; 

#10 reset = 0; //end reset 

end 

always 


begin 


RSF 


WAP CB: 


#5clock = ~clock; 


end 

initial begin 

#10 x = 1; $display(“%4d: 
#10 x = 1; $display(“%4d: 
#10 x = 1; $display(“%4d: 
#10 x = 0; $display(“%4d: 
#10 x = 1; $display(“%4d: 
#10 x = 0; $display (“%4d: 
#10 x = 1; $display(“%4d: 
#10 x = 1; $display(“%4d: 
#10 x = 0; $display(“%4d: 
#10 x = 0; $display(“%4d: 
#10 $finish; 

end 

endmodule 

仿真 输出 


sh BR at 


KO | 


tb”, 
tb”, 
tb”, 
tb”, 
tb”, 
tb’, 
tb”, 
sb", 
tb”, 
tb”, 


Stime, 
$time, 
$time, 
$time, 
$time, 
$time, 
$time, 
$time, 
$time, 


$time, 


//generates a clock signal with period 10 


//one input per clock cycle 


x); 
xX); 
x) ; 
X); 
2); 
X); 
x) ; 
X); 
x) ; 


Xx); 


下 面 将 展示 Moore FSM 的 功能 仿真 输出 结果 。 在 仿真 时 间 为 55 ~ 75 的 时 间 段 ， 


Moore 信号 z 变 为 1， 意味 着 在 测试 回 量 中 有 两 个 “101” 序 列 。 


Chronologic VCS simulator copyright 1991-2009 
Contains Synopsys proprietary information. 
Compiler version D-2009.12; Runtime version D-2009.12; 


0: 
10: 
20: 
30: 
40: 
50: 


55 


60: 
65: 


70 


753 
80: 
85: 
90: 
100: x=0 
$finish 
S$finish 


x KAAK 
il 


x= 


z= 0 
1 
1 
1 
0 
1 

z=1 
0 

z= 0 
1 

z=1 
1 

z= 0 
0 


called from file “tester.v”, 


at simulation time 


110 


line 32. 


下 面 给 出 例 5-2 PRM BBR “101” A Mealy 序列 识别 器 的 Verilog 行为 
建 模 ， 其 中 代码 由 下 面 两 部 分 组 成 : 
第 1 部 分 代码 : 包含 NSG 和 OG 的 行为 描述 。 然 而 ， 值 得 注意 的 是 ， 在 一 些 大 型 设计 
中 ， 组 合 的 代码 可 能 会 存在 同步 问题 ， 特 别 是 使 用 了 带 有 硬件 源 约束 的 逻辑 器 件 时 。 这 部 分 


代码 描述 了 Mealy 有 限 状 态 图 。 有 限 状 态 图 仅 包 含 三 个 状态 ， 分 别 被 标识 为 A、B 和 C。 


第 2 部 分 代码 : 带 有 异步 复位 功能 触发 器 的 行为 描述 。reset 有 效 时 ，FSM 被 初始 化 为 
初始 状态 A。 
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HDL 建 模 


//A Mealy sequence recognizer that detects the overlapping 


//sequence “101” 
//Using binary encoded state labels 
module mealy seq 


( 


input clock, reset, x, 
output reg Zz 


1% 


parameter A = 2'b00, 
B = 2'b0l, 
Œ = 2'*bi0; 


reg [1:0] current_state, next_state; 


//Section 1: A combined next state generator (NSG) 
output generator (OG) 


//unknown states are ignored 
always@ (*) 


begin 
casex (current_state) 


A: if (x = 1) begin 
next state = B; 
zZz = 0; 
end 
else begin 
next_state = A; 
z = 0; 
end 
B: if (x = 1) begin 
next state = B; 


end 
else begin 
next_state = C; 
z= 0; 
end 
Cx if (x = 1) begin 
next state = B; 
2 = i: 
end 
else begin 
next state = A; 
z= 0; 
end 
default: begin 


next state = 2'bxx; 
z = 3 ee 
end 
endcase 


end 


and 


RSF 





AY JP eB ol AGE TH 


//Section 2: 


flip-flops 


always@(posedge clock, posedge reset) 


begin 


if (reset = 1) 


else 


end 
endmodule 


仿真 测试 台 


测试 平台 和 例 5-9 中 所 给 的 基本 一 样 ， 除 了 “mealy seq.v” 文 件 已 被 实例 化 替代 。 


仿真 输出 


current_state <= 


current state <= 


A; 


next_state; 
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接 下 来 给 出 Mealy FSM 的 功能 仿真 输出 。 注 意 在 这 种 情况 中 ，Mealy 输出 z 取决 于 当 
前 状态 和 输入 x。 如 果 x 发 生变 化 ,，z 也 可 能 变化 。 男 一 方面 ， 在 Moore 机 器 中 ， 输 入 x 会 
在 下 个 时 钟 周 期 影响 Moore 输出 z。 而 这 里 ,仿真 时 间 在 50 ~ 70 之 间 ， 目 标 序 列 “101” 
的 最 后 一 位 进入 的 同时 ，Mealy-z 输出 1。 


Chronologic VCS Simulator copyright 1991-2009 
Contains Synopsys proprietary information. 
Compiler version D-2009.12; Runtime version D-2009.12; 


0: 


10: x = 
20: x = 
30: x = 
40: x = 
50: 

50: 

55: 2 = 
60: x = 
70: x = 
70: 

753 

80: x = 
90: X = 
100: x = 


$finish called from file “testmealy.v”, 


Sfinish at simulation time 


综合 和 仿真 


oOo pp H 


0 
0 


Zz 


0 


通过 使 用 Altera Quartos II, ModelSim 和 仿真 工具 ， 例 5-10 F Mealy 序列 识别 器 的 
Verilog 建 模 进行 了 综合 和 仿真 。 图 5-41 为 综合 后 的 电路 ， 图 5-42 为 它 的 仿真 波形 。 如 时 序 


图 中 所 示 ， 每 次 x 的 输入 表示 为 一 个 “101” 序 列 时 ， 信 和 号 z 就 会 变 为 1。 
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5-41 $i) 5-10 中 Mealy 序列 识别 器 综合 后 的 电路 


上 aaaaa 
| (rimm 





图 5-42 图 5-41 中 综合 后 的 Mealy 序列 识别 器 的 仿真 波形 
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练习 


5.1 使 用 Espresso 最 小 化 图 5-7 中 有 限 状 态 图 的 真 值 表 并 画 出 简化 后 的 电路 。 你 的 答案 和 图 5-8 PR 
示 的 一 样 吗 ? 

5.2 考虑 一 个 类 似 图 5-10 中 所 给 的 1 位 的 4-1 选择 器 ， 使 用 这 种 选择 器 设计 实现 一 个 四 种 功能 的 1 位 
寄存 器 片 ， 这 种 寄存 器 片 表现 为 当下 = fi 有 = 0 时 同步 清 零 ， 当 下 = 1 时 并 行 加 载 ， 当 已 = 2 时 算 
RAB, 5 F=3 时 右 黎 ， 同 时 左边 输入 (1i)。 然 后 ,使 用 4 个 这 样 的 片 ， 画 出 一 个 4 种 功能 的 
4 位 寄存 器 的 细节 ， 要 表现 出 到 每 一 个 选择 器 的 所 有 信号 的 连接 。 

5.3 确定 图 5$-9 中 位 串 行 多 功能 寄存 器 的 最 小 时 钟 周 期 ， 其 中 假设 rw 和 re 都 是 0.lns，NOT 和 
NAND 门 的 延 时 也 都 是 0.1ns。 

5.4 确定 图 5-11 中 位 并 行 多 功能 寄存 器 的 最 小 时 钟 周期 ， 考 虑 到 te. tog ANAND 门 的 延 时 ,假设 只 


so 


5.6 
5.7 


5.8 


5:9 


5.10 
5.11 
A e 


5.13 


5.14 
F419 


5.16 


dd 
5.18 
3.19 


5.20 
3.21 
5.22 
5.23 


有 2-1 选择 器 是 可 知 的 。 
参考 练习 5.2， 这 次 直接 通过 一 个 4 位 的 4-1 选择 器 和 一 个 4 位 的 并 行 加 载 寄 存 器 设计 一 个 4 位 
的 寄存 器 。 
设计 一 个 带 有 异步 复位 的 8 位 的 多 功能 寄存 器 ， 能 够 表现 出 并 行 加 载 、 循 环 右 移 或 循环 左 移 。 
构建 一 个 真 值 表 验证 图 5-16 中 电路 工作 正常 ， 表 中 包含 当前 状态 位 9 、qgo， 输 入 zx， 下 一 状态 位 
di 和 d， 输 出 z。 复 位 之 后 ， 触 发 器 初始 化 为 9 = 0，gqo = 0。 表 中 输入 这 些 值 作为 它们 FSM 的 
当前 状态 。 然 后 ， 设 置 x = 1， 使 用 公式 〈5-2 ) 中 给 出 的 表达 式 确定 41/、qo 和 z 的 值 。 把 这 些 值 
填 人 表 中 。 假设 时 钟 信号 发 生 0-1 变化 ， 改 变 qiqo 的 值 为 41、qo 的 值 。 在 表 中 输入 qiqo 的 新 值 ， 
在 x 的 下 个 值 为 1、0、1、0、1、0 时 不 断 重 复 这 个 过 程 。 从 z 的 值 中 ， 确 定 电 路 是 否 工作 正常 。 
设计 一 个 Moore 序列 识别 器 检测 非 重 释 的 序列 “101”。 使 用 二 进 制 编码 状态 标识 画 出 电路 示意 
图 ， 要 与 图 5-16 中 所 示 的 相似 。 
设计 一 个 Mealy 序列 识别 器 检测 非 重 释 的 序列 “101”。 使 用 二 进 制 编码 状态 标识 画 出 电路 示意 
图 ， 要 与 图 5-16 中 所 示 的 相似 。 

设计 一 个 Moore 序列 识别 器 检测 重 释 序列 “1001”。 使 用 二 进 制 编码 状态 标识 。 

设计 一 个 Mealy 序列 识别 器 检测 重 亚 序列 “1001”。 使 用 二 进 制 编码 状态 标识 。 

参考 图 $-13 中 的 有 限 状态 图 。 使 用 二 进 制 编码 状态 标识 11、01、10 和 00 分 别 标 识 状态 A ~ D。 

画 出 电路 图 ， 确 定 复位 后 ，FSM 开始 于 状态 11 (A)。 与 图 5-15 和 图 5-17 比较 它们 组 合 电 路 的 

Ko 

设计 一 个 Mealy 序列 识别 器 检测 重 秋 序列 “1001”。 使 用 独 热 码 状 态 标 识 并 使 用 Espresso 最 小 

化 组 合 的 真 值 表 。 

使 用 DD 触发 器 设计 一 个 形式 上 的 IK 触发 器 (也 可 以 参考 第 4 章 )。 

仿真 带 有 如 下 要 求 的 Verilog 建 模 的 电路 : 

a. 设计 例 5-1 中 的 FSM, 但 使 用 公式 (5-2) 中 给 出 的 表达 式 。 

b. 直接 通过 描述 有 限 状态 图 的 方式 设计 例 5-1 中 的 FSM。 

参考 图 5-22 中 的 有 限 状态 图 。 使 用 二 进 制 编 码 标识 设计 相关 的 FSM， 与 图 5-15 中 的 电路 比较 

电路 大 小 。 

设计 一 个 带 有 低 电 平 有 效 的 异步 复位 的 位 串 行 模 11 计数 器 (也 可 以 参考 图 5-28 )。 

设计 一 个 带 有 低 电 平 有 效 的 异步 复位 的 位 并 行 模 11 计数 器 (也 可 以 参考 图 5-31). 

仿真 带 有 如 下 要 求 的 Verilog 电路 建 模 : 

a. 为 图 5-28 所 给 的 1 位 二 进 制 计数 器 片 进行 建 模 ， 然 后 用 它 设 计 练 习 5.17 中 的 计数 器 。 

b. 使 用 行为 建 模 的 加 法 器 、 选 择 器 和 并 行 加 载 寄存 器 ， 用 它们 去 设计 练习 5.18 中 的 计数 器 。 

c. 例 5-18 中 计数 器 的 完整 行为 建 模 。 

设计 一 个 带 有 低 电 平 有 效 的 异步 复位 的 模 4 上 /下 计数 器 ( 非 计 数 器 片 )。 

设计 一 个 同时 带 有 同步 和 异步 复位 功能 的 模 4 上 /下 计数 器 ( 非 计 数 器 片 )。 

设计 一 个 同时 带 有 同步 和 异步 复位 信号 的 3 位 格雷 码 计数 器 。 

反 相 不 归 零 ( NRZI) 是 一 种 用 于 与 通用 串 行 总 线 (USB) 设备 通信 的 数据 编码 方案 。NRZI 发 生 

器 的 输出 信号 (z) 在 输入 位 (x) 是 0 时 发 生 转 变 ， 在 输入 位 是 1 时 保持 原来 的 值 (0 或 1) 稳定 

不 变 。 也 就 是 说 ， 从 右 到 左 ， 当 NRZI 发 生 器 的 输入 是 000000 时 ， 它 的 输出 从 右 到 左 将 会 转 

换 , 为 101010。 然 而 ， 输 入 中 连续 的 1 对 应 的 输出 将 保持 它 之 前 的 值 。 例 如 ， 输 入 扎 从 右 到 

左 为 : 1111000111000011, NRZI Æ K h z AMASE: 0000010111101 
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5.24 


5.25 


5.26 
ied 


5.28 


2.29 


5.30 


5.31 


3.32 


SF 


O11, (sh, X=OxCFOC H}, Z: 0xEFAE。 设 计 这 种 NRZI RA. 

假设 一 个 有 限 状 态 图 有 5 种 状态 。 使 用 汉 明 编码 方案 产生 5 个 汉 明 码 去 标识 这 些 状态 。 每 一 对 
标识 码 应 当 有 3 个 或 者 更 多 的 汉 明 间距 。 

创建 并 仿真 例 5-7 中 容错 FSM 的 Verilog 建 模 。 特 别 地 ， 复 制 表 5-12 的 条 目 到 一 个 Excel # 
中 。 然 后 在 每 一 行 中 使 用 Excel 的 “连接 ”功能 将 位 q ~ go 和 x 连接 为 一 个 6 位 的 二 进 制 数 。 
Xt dy ~ do 和 z 做 同样 的 处 理 。( 你 也 可 以 使 用 Excel 的 bin2hex 功能 将 这 个 连接 的 6 位 数 转换 
为 十 六 进 制 的 6 位 数 )。 然 后 对 这 个 表 进 行 排序 ， 使 得 这 个 表 中 的 行 按 照 当 前 状态 位 和 Excel 表 
的 x 位 有 序 上 升 排 列 。 然 后 创建 两 列 ， 使 用 连接 功能 将 两 个 6 位 的 条 目 转换 为 正确 的 Verilog 语 
句 声明 ， 用 在 case 语句 中 。 人 例如， 表示 q Ax MH 000000 写 为 “6'h000000 :”, 表示 d 和 z 的 
000000 5A “ {d, z} = 6’b000000: ”, HH d Æ Verilog 中 被 声明 为 一 个 5 位 的 下 一 状态 变量 。 
从 Excel 中 复制 这 两 列 到 一 个 Verilog 文本 编辑 器 中 ， 用 组 合 建 模 为 NSG 和 OG 模块 的 FSM 进 
行 建 模 。 为 了 简化 ， 建 模 触 发 器 时 使 用 带 有 普通 复位 但 有 独立 置 位 的 信号 。 在 这 个 测试 台中 ， 
使 用 置 位 信号 产生 一 个 1 位 的 错误 ; 也 就 是 ， 改 变 q = 0 为 1。 没有 其 他 错误 时 FSM 应 当 可 以 
继续 工作 。 


always@(*) //NSG and OG 

begin 

case({q, x}) //q is declared as 5-bit current state variable 
6’h000000: {d, z} = 6’h000000; //18* row of the table 


default: {d, z} = 6’ hx; 
endcase 


end 

设计 一 个 容错 的 模 4 Ie ETRE CSET BRET) 

参考 图 5-15 中 所 给 电路 。 在 不 改变 它 的 组 合 电路 的 情况 下 ， 使 用 汉 明 错误 检测 机 制 ， 在 电路 中 
添加 模块 ， 让 它 工作 时 表现 为 一 个 一 位 容错 FSM。 

一 个 串 行 加 法 器 输入 2 位 的 x 和 ?， 每 个 时 钟 周 期 输出 它们 的 和 位 s。 它 内 部 保持 外 部 和 输出 位 的 
存在 或 不 存在 。 假 设 初 始 的 进位 为 零 ， 完 成 以 下 内 容 : 

a. 国 一 个 串 行 加 法 器 的 Mealy 有 限 状 态 图 。 

b. 设计 Mealy 串 行 加 法 器 的 FSM。 

c. 画 一 个 串 行 加 法 器 的 Moore 有 限 状态 图 。 . 

d. 设计 Moore 串 行 加 法 器 的 FSM., 

e. 设计 一 个 容错 的 Mealy 串 行 加 法 器 。 

参考 图 5-34 中 的 电路 ,假设 Acc=0.3ns, t=0.2ns, ty=~0.05ns, t= 0.05ns。 假设 +=0.6ns， 
画 一 个 时 序 图 并 讨论 电路 工作 中 是 否 会 因为 时 钟 相位 差 出 现 问 题 。 

参考 图 5-36 中 的 电路 , 假设 Acc = 0.3ns，re= 0.2ns，rw = 0.05ns， Te = 0.05ns。 iE t= 0.6ns， 
画 一 个 时 序 图 并 讨论 电路 工作 中 是 否 会 因为 时 钟 相 位 差 出 现 问题 。 

参考 图 5-36 中 的 电路 ,假设 Acc=0.3ns, tc = 0.2ns，rr = 0.05nS, Te = 0.05ns。 假 设 += 0.7ns， 
画 一 个 时 序 图 并 讨论 电路 工作 中 是 否 会 因为 时 钟 相 位 差 出 现 问题 。 

参考 一 个 人 硬件 先 人 先 出 缓冲 区 ， 其 输入 输出 端口 连接 到 了 并 行 计 算 的 时 序 电 路 A 和 B 上 [4-5]。 
电路 A 产生 IN， 作 为 写 一 个 值 的 下 一 个 缓冲 区 ， 电 路 B 产生 OUT， 作 为 读 一 个 值 的 下 一 个 组 
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冲 区 。 两 个 计数 器 ，X 和 YY， 每 一 个 被 其 中 的 一 个 电路 控制 ， 分 别 用 来 产生 IN 和 OUT 值 。 绥 
冲 区 工作 在 一 个 循环 的 方式 中 。 这 两 个 电路 ， 还 有 它们 分 别 的 计数 器 ， 工 作 在 两 个 不 同 的 时 钟 
Fo BR AM B 也 需要 输入 IN Al OUT 值 ， 去 确定 缓冲 区 是 满 还 是 空 。 完 成 以 下 内 容 : 
a. 画 出 电路 A 和 B、 计 数 器 、 带 标识 的 缓冲 区 的 框图 ， 还 有 信和 号 的 名 字 。IN 是 电路 B 的 异步 输 
A, OUT 是 电路 A 的 异步 输入 。 为 每 一 位 使 用 两 个 同步 触发 器 。 
b. 假设 缓冲 区 大 小 是 8，X 和 YY 被 设计 为 了 模 8 计数 器 。 假 设 IN 是 3， 列 出 电路 B 的 输入 IN 
经 过 同步 触发 器 的 可 能 的 值 。 讨 论 电路 B 的 输入 IN 不 是 3 时 ,缓冲 区 的 空 标志 将 如 何 产 生 。 
c. 重复 (a) 部 分 ,但 这 次 假设 XX 和 YY 被 设计 为 了 格雷 码 计数 器 。 
计算 机 安全 
5.33 ”计算 机 安全 (硬件 木马 ): 查看 练习 11.12， 了 解 单 输入 触发 恶意 电路 计算 (也 可 以 看 11.2 节 )。 
5.34 ”计算 机 安全 (硬件 木马 ); 查看 练习 11.13 ， 了 解 计 时 器 恶意 攻击 电路 计算 (也 可 以 看 11.2 节 )。 
5.35 ”计算 机 安全 ME): 查看 练习 11.14， 设 计 一 个 硬件 加 密 电 路 (也 可 以 看 11.5 节 )。 
5.36 ”计算 机 安全 (计算 机 安全 威胁 ): 查看 练习 11.15， 了 解 计算 机 安全 威胁 (也 可 以 看 11.1.3 节 )。 
5.37 计算 机 安全 (硬件 发 展 的 威胁 ): 查看 练习 11.16， 了 解 同 态 加 密 硬件 发 展 安全 策略 机 制 (也 可 以 
看 11.1.3 节 和 11.2 节 )。 214 


oS 6 ix | 


Digital Logic Design and Computer Organization with Computer Architecture for Security 


时 序 电 路 : 大 型 设计 





6.1 简介 


如 图 6-1 所 示 ， 一 个 大 的 时 序 电 路 由 数据 通路 和 控制 单元 设计 而 成 。 数 据 通路 同时 包 
括 时 序 和 组 合 的 电路 模块 ， 如 寄存 器 、 计 数 器 、 选 择 器 (MUX)、 译 码 嚣 、 算 木 逻辑 单元 
(ALU) 和 其 他 等 ， 它 们 是 标准 的 或 特定 的 问题 。 这 些 模 块 集体 地 实现 一 系列 简单 的 操作 ， 
比如 把 两 个 寄存 器 的 内 容 相 加 并 把 结果 存在 第 三 个 寄存 器 中 。 控 制 单元 负责 为 提供 操作 的 数 
据 通 路 提供 必要 的 控制 信和 号。 一 个 数据 通路 在 一 个 时 钟 周期 中 表现 出 一 种 或 多 种 操作 。 


数据 通路 







寄存 器 ， 计 数 器 ，ALU， 
选择 器 ， 译 码 器 ， 

自 定义 有 逻辑， 缓冲 区 ， 

三 态 缓冲 区 ， 硬 布线 逻辑 ， 等 


外 部 
状态 信和 号 


复位 时 钟 










状态 信号 





外 部 输入 /输出 


6-1 大 型 时 序 电路 的 框图 


每 个 数据 通路 操作 需要 一 个 或 多 个 数据 输入 ， 产 生 一 个 或 多 个 输出 ， 然 后 其 中 每 一 个 又 
被 存储 在 了 寄存 器 或 内 存 中 。 一 个 操作 可 能 也 会 使 用 一 个 或 多 个 组 合 电路 单元 来 计算 得 到 一 
个 输出 。 在 数据 通路 中 ， 两 个 或 多 个 操作 可 能 共享 部 分 或 全 部 的 组 合 电路 模块 。 例 如 ， 从 不 
同 源 中 读 取 数据 计算 和 的 两 次 操作 可 以 通过 共享 同一 个 加 法 器 来 减少 硬件 。 

一 个 数据 通路 也 可 能 条 件 性 地 表现 出 一 个 或 多 个 操作 ， 取 决 于 信号 的 值 是 来 自 内 部 的 
数据 通路 或 由 数据 通路 外 部 的 另外 一 个 模块 产生 的 。 一 个 被 称 为 算术 溢出 标志 的 特定 寄存 需 
位 值 和 一 个 特定 的 计数 值 是 数据 通路 内 部 信号 的 实例 ， 这 代表 了 一 种 情况 。 外 部 事件 触发 信 
号 ， 如 局 动 控 制 单 元 的 一 个 信号 ， 按 键 产生 的 一 个 信号 ， 表 示 一 个 内 存 数据 有 效 可 读 的 一 个 
信号 ， 都 是 表示 数据 通路 外 部 信号 的 条 件 实例 。 

有 几 种 可 选 的 结构 来 设计 数据 通路 和 控制 单元 。 许 多 因素 可 以 影响 数据 通路 的 结构 ， 包 
括 操作 时 钟 的 频率 和 应 当 产 生 结 果 的 频率 。 一 个 较 高 的 时 钟 频 率 表示 了 数据 通路 要 有 更 短 的 
最 大 传播 延 时 ， 这 个 决定 了 结果 产生 的 有 多 快 。 然 而 ,一 个 电路 的 时 钟 频率 和 电路 消耗 功 
率 的 晶体 管 的 数量 之 间 有 一 定 的 关系 ， 这 个 决定 了 电路 可 能 释放 出 多 少 热 量 。 如 第 1 章 中 提 
到 的 ， 一 个 时 序 电 路 在 使 用 风扇 冷却 系统 时 仍 在 允许 的 温度 范围 内 时 可 以 操作 多 快 有 一 个 限 
制 。 在 实践 中 ,使 用 当前 的 发 片 技术 ,集成 电路 平均 可 以 释放 的 热量 限制 了 它 的 时 钟 频 率 可 
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以 有 多 高 ， 它 可 以 包含 多 少 个 晶体 管 。 

在 这 一 章 中 ， 我 们 使 用 不 同 的 数据 通路 和 控制 单元 结构 ， 解 释 它们 的 组 织 形式 ， 评 估 它 
们 的 性 能 参数 。 我 们 还 使 用 复杂 时 序 电路 的 模块 来 表示 功率 和 能 量 ， 讨 论 这 些 模块 使 用 时 如 
何 减少 电能 消耗 ， 还 有 如 何 估 计 复 杂 时 序 电路 的 能 源 效率 。 


寄存 器 传输 符号 


寄存 器 传输 符号 (RTN) 用 于 正式 描述 数据 通路 的 操作 路 径 。 每 一 个 操作 产生 一 个 结 
果 ， 其 必须 存储 在 存储 模块 中 ， 比 如 寄存 器 或 内 存 。RTN 的 语法 是 随意 的 。 例 如 ，R3 R1 + 
R2 是 一 个 RTN， 它 包括 了 三 个 寄存 器 ，R1、R2 和 R3。 左 箭头 (一 ) 表示 在 下 一 个 时 钟 周 
期 中 两 个 寄存 器 值 的 和 将 被 存储 在 寄存 器 R3 中 。 表 6-1 表示 了 书 中 用 到 的 一 些 RTN 语法 示 
例 。 部 分 语法 取 自 于 Verilog 硬件 描述 语言 中 (HDL). 


表 6-1 使 用 随意 语法 和 Verilog 硬件 描述 语言 语法 的 RTN 语法 举例 


RTN 举例 
R + value -> 描述 一 个 寄存 器 加 载 ， 寄 存 器 尺 装载 这 个 值 
CNTR < CNTR + 1 . 
或 描述 一 个 名 为 CNTR 的 计数 器 增值 
CNTR <= CNTR + 1; (Verilog) 
RaO //R{7..1] 
或 
R <= R >> 1; (Verilog) 描述 一 个 带 有 OM ARB. FS “U” AR Ren EE 


或 

R <= {0, R[7:1]}; (Verilog) 

及 一 R[7] //R{7..1] 

或 

R <= R >>> 1; (Verilog) 描述 一 个 算术 右 移 
或 

R <= {R[7], R[7:1]}; (Verilog) 


R3 +—R1 +.R2 

或 描述 将 两 个 寄存 器 R1 和 R2 的 值 相 加 ， 并 将 和 保存 在 R3 中 
R3 <= R1 + R2; (Verilog) 

MX] — R; 描述 一 个 内 存 传 输 。 寄 存 器 R BEE ANAE X Ak 


6.2 数据 通路 设计 


一 个 数据 通路 的 结构 可 以 被 分 类 为 单 周 期 、 多 周期 或 流水 线 。 单 周期 的 数据 通路 需要 更 
多 的 硬件 ， 但 只 需 简 单 的 控制 单元 。 多 周期 的 数据 通路 需要 更 少 的 硬件 ， 但 使 用 多 个 时 钟 周 
期 按 步 产生 结果 。 流 水 线 数 据 通路 也 需要 更 多 的 硬件 ， 但 同时 可 以 操作 多 个 输入 。 流 水 线 只 
有 在 多 个 输入 的 情况 下 处 理 起 来 才 会 有 效率 。 

URM eT MAT RA +B + CDRH RIN 操作 的 单 周期 、 多 周期 和 流 
水 线 数据 通路 的 设计 和 表现 在 这 里 表示 了 出 来 。4 到 刀 代 表 了 同时 从 一 些 寄 人 存 器 或 内 存 中 
读 取 到 的 值 。 然 而 ,流水线 数据 通路 将 会 表示 为 RA + Bi;+ Ci+D;， 其 中 i= 0, 1, 2, 
3 等 。 is 
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RINR+-A+B+C+D 和 R*-A+B+C-D 不 代表 标准 CPU 指令 所 表现 的 操作 ， 我 
们 将 会 在 第 8 章 中 得 知 。 这 些 RTN 被 认为 是 混合 操作 ， 需 要 在 计算 上 使 用 三 个 或 更 多 的 数 
据 。 一 个 典型 的 算术 指令 操作 使 用 两 个 数据 值 。 这 里 ，RTN 用 来 解释 和 比较 单 周 期 、 多 周 
期 和 流水 线 数据 通路 设计 。 然 而 ,一 些 CPU (比如 [1]) 有 一 些 使 用 三 个 数据 值 表 现 出 混合 
操作 的 指令 ， 比 如 乘 - 加 (R+*-4+B*C)， 这 是 一 个 计算 中 常用 的 操作 ， 包 括 和 矩阵 。 如 果 
A、B 和 C 是 浮 点 (FP) 数 , 混合 操作 会 有 在 内 存 中 产生 结果 时 只 有 一 个 舍 入 误差 的 优点 Cl 
3.8.3 节 )。 要 是 分 开 在 两 条 指令 中 完成 ，B * C 的 结果 如 果 存 储 在 内 存 中 ， 将 会 产生 一 次 售 
入 误差 ， 然 后 用 4 加 上 这 个 内 存 中 值 产生 的 结果 ， 如 果 也 放 在 内 存 中 ， 将 会 产生 男 外 一 个 舍 

217) 入 误差 。 

其 他 的 例子 包括 自 定义 指令 执行 混合 操作 提出 了 可 配置 CPU 的 设计 [2]。 在 这 种 情况 
中 ， 在 一 个 程序 循环 中 表现 为 一 系列 指令 序列 的 独立 操作 可 以 合 为 一 个 带 有 混合 操作 的 单一 
的 自 定义 的 指令 。 这 个 新 的 指令 代替 了 循环 中 的 指令 序列 ， 这 样 通过 减少 必须 从 内 存 中 读 取 
的 指令 的 数量 来 提高 性 能 。 

第 1 章 中 讨论 过 的 SIMD 架构 是 另 一 种 操作 多 个 数据 值 的 指令 。 然 而 在 这 种 情况 中 ， 每 
一 条 SIMD 指令 只 指定 一 种 操作 ， 这 种 操作 会 同时 发 生 而 且 没 有 依赖 多 个 数据 值 的 数据 。 这 
三 个 数据 通路 的 每 一 种 控制 单元 的 设计 将 在 6.4 节 中 进行 讨论 。 


6.2.1 BA 


图 6-2 表示 了 计算 值 4+B+C+D 或 4+B+C-D 而 且 把 结果 在 一 个 时 钟 周期 内 存储 
在 寄存 器 R 的 单 周 期 的 数据 通路 。 这 个 数据 通路 包括 两 个 加 法 (+) 模块 和 一 个 加 / 减 (+/-) 
模块 。 信 号 mode 控制 加 / 减 模块 的 功能 。 如 果 mode = 0， 数 据 通路 表现 为 尺 二 4+B+C+ 
D; FRW, EX RBA R-A+B+C-D, 





寄存 器 
图 6-2 ”在 一 个 时 钟 周期 内 计算 A+B+C+D 或 4A+B+C-D 的 单 周期 的 两 个 功能 的 数据 通路 


公式 〈6-1 ) 用 来 估计 运行 这 个 数据 通路 所 需 的 最 小 时 钟 周期 。 这 个 周期 与 最 长 的 信 
号 路 径 的 传播 延 时 成 正比 ， 信 号 路 径 从 进入 第 一 个 加 法 器 开始 计算 ， 到 进入 这 个 寄存 唤 
结束 。 
站 区 nn + Ammas + Ti + Tog + Tes (6-1) 
通常 ， 如 果 一 个 单 周 期 的 数据 通路 实现 几 个 单一 或 复杂 的 操作 ， 它 的 最 小 时 钟 周 期 将 
正比 于 完成 最 复杂 的 操作 所 需 的 时 间 。 因 此 ， 简 单 和 复杂 的 操作 将 都 会 需要 同样 的 时 间 来 完 
成 。 这 将 会 增加 总 的 时 间 来 完成 同时 需要 简单 和 复杂 操作 的 任务 。 
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6.2.2 ”多 周期 


一 个 多 周期 的 数据 通路 需要 把 一 种 计算 进行 分 解 并 分 步 完 成 ， 每 一 步 需要 一 个 简单 的 数 
据 通路 操作 。 图 6-3 描述 了 一 个 带 有 简单 加 法 器 /减法 器 和 两 个 选择 器 (MUX) 模块 的 多 周期 
数据 通路 。 这 个 数据 通路 能 表现 出 5 种 可 能 的 简单 操作 ， 比 如 RA4,R+-R+B,R*-R+C, 
R+R+DKR<R-D, 下 面 的 算法 使 用 了 4 个 周期 实现 TR-A4+B+C+D。 


B & B A 





图 6-3 需要 4 个 时 钟 周期 来 计算 A+B+C+D 或 4A+B+C-D 的 多 周期 数据 通路 


实现 RA4+B+C+tD 的 一 个 多 周期 算法 : 

周期 1: RA 

周期 2. R— R+B 

周期 3: R«-R+C 

周期 4: 如 果 mode ==0, R«-R+D; AMI, R«-R-D 

多 周期 数据 通路 的 时 钟 周期 也 和 最 长 信号 路 径 的 时 延 成 正比 。 在 这 种 情况 下 ， 最 长 的 路 
径 从 穿 过 加 法 器 /减法 器 模块 的 MUXI1 的 输入 开始 ， 到 寄存 器 的 输入 结束 。 公 式 (6-2) 佑 
算 了 这 个 数据 通路 的 最 小 时 钟 周期 。 注 意 MUX 的 传播 时 延 比 一 个 加 法 器 的 小 。 因 此 ， 估 算 
的 这 个 多 周期 数据 通路 的 最 小 时 钟 周期 比 单 周 期 数据 通路 的 小 。 然 而 ， 这 个 多 周期 算法 需要 
4 个 时 钟 周 期 来 完成 这 个 任务 ， 而 单 周 期 数据 通路 只 需要 一 个 时 钟 周 期 。 

T > Awuxi + AApprsug + Awuxz + Tu + Teg 十 Tu ( 6-2 ) 

一 个 多 周期 数据 通路 有 一 个 减少 了 所 需 硬 件 总 量 的 优点 。 在 这 个 图 中 ， 一 个 简单 的 加 法 
器 /减法 器 要 被 使 用 多 次 来 产生 最 终 的 结果 。 通 常 ， 如 果 简 单 和 复杂 的 计算 都 要 实现 ， 一 个 
多 周期 的 数据 通路 也 会 有 一 个 优势 。 在 这 种 情况 中 ， 完 成 一 个 简单 的 计算 会 需要 较 少 的 时 钟 
周期 数 ， 完 成 一 个 复杂 的 计算 会 需要 较 多 的 时 钟 周 期 数 。 因 此 ， 它 将 会 减少 总 的 所 需 时 钟 周 
期 数 来 完成 一 个 任务 。 另 外 ， 与 一 个 单 周期 的 数据 通路 形成 对 比 ， 一 个 多 周期 的 数据 通路 将 
需要 一 个 更 高 频率 ( 短 周期 ) 的 时 钟 。 从 另 一 方面 ， 一 个 单 周 期 的 数据 通路 将 需要 一 个 更 慢 
(长 周期 ) 的 时 钟 ， 但 仅 需 要 一 个 时 钟 周期 来 完成 每 一 个 简单 或 复杂 的 计算 。 


6.2.3 流水线 
一 个 流水 线 数据 通路 ， 或 流水 线 ， 是 处 理 数据 流 的 理想 结构 。 例 如 ， 考 虑 使 N 对 FP 数 
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字 相 加 ， 每 次 一 对 ,来 产生 六 个 和 ， 或 者 考虑 执行 六 个 汇编 指令 。 当 以 流水 线 方式 处 理 ， 
一 次 计算 被 分 为 一 系列 独立 的 操作 ， 其 中 每 个 在 被 称 为 流水 线 阶段 的 单独 的 子 数 据 通路 中 进 
行 ， 更 像 是 多 周期 数据 通路 中 的 那样 。 

这 个 阶段 不 共享 任何 模块 ， 并 由 并 行 加 载 寄存 需 形 成 一 个 流水 线 ， 就 像 第 1 章 中 讨论 
过 的 汽车 制造 生产 线 。 所 有 的 阶段 并 发 操作 来 处 理 数 据 流 。 比 如 ， 考虑 计算 YX 个 值 的 问题 ， 
从 i= 0 到 NN -1 中 的 每 一 个 4i+ Bi+ C+D, 每 一 个 4; 到 Di 代表 了 4 个 数据 项 ， 比 如 4 个 
不 同 数 组 中 的 第 i 个 元 素 。 分 离 每 一 种 计算 A + B+ C tD 的 方式 的 组 相关 操作 如 下 : 

图 6-4 表示 了 一 个 标 有 1 ~ 3 三 个 阶段 的 流水 线 数据 通路 的 结构 。 三 组 寄存 髓 用 来 分 离 
每 一 个 阶段 产生 的 结果 。 在 这 个 图 中 ， 这 个 流水 线 从 一 个 外 部 模块 接收 到 一 系列 的 4 个 值 
Aj, Bi, Gi 和 D;, 也 回 一 个 外 部 模块 发 送 这 个 结果 Rio 在 每 一 个 时 钟 周期 中 ’ 阶段 ] MT 
外 部 数据 源 获取 它 的 输入 ， 阶 段 2 从 阶段 1 中 获取 它 的 输入 ， 阶 段 3 从 阶段 2 中 获取 它 的 输 
入 。 因 此 ， 在 每 一 个 时 钟 周期 中 ， 所 有 的 三 个 阶段 并 行 操作 。 


X;<A,; +B; // 流水 线 阶 段 1 的 操作 

ye el G // 流水线 阶段 2 的 操作 

入 Ya, / 流水线 阶段 3 的 操作 
a — 


z 
3 
寄存 器 | T 


a: 
SF 
Mi 


7 C1 CoO 


| | 
路 | | 
… B1 BO EH 


> ee 
寄存 器 |<, | 寄存 器 jep- 


Vv 
-m 10 pel lp (2828 yg BLO aan > (sae RY RO 
pa (+) ie (+) (+/-) 


辑 
sn ht —— 
接口 阶段 1 阶段 2 
寄存 器 


图 6-4 计算 一 系列 i= 0，1，2 FH A + B+ Cit D; 值 的 双 功 能 的 流水 线 数据 通路 


图 6-5 给 出 了 表示 流水 线 的 两 种 不 同 的 流水 线 图 表 类 型 。 注 意图 表 不 包括 图 6-4 中 所 示 
由 接口 寄存 器 造成 的 一 个 周期 的 延 时 。 图 6-5a 中 的 流水 线 图 表 有 一 个 水 平方 向 的 组 织 , 在 x 
轴 上 表示 出 了 时 钟 周期 。 另 一 方面 ， 图 6-5b 中 的 图 表 有 一 个 垂直 方向 的 组 织 ， 在 负 y 轴 上 
表示 了 时 钟 周期 。 
如 图 6-5 所 示 ， 在 周期 3 中 ， 当 阶段 3 正在 产生 Ro。， 阶 段 2 正在 产生 R 所 需要 的 中 间 
结果 Yi, BB 1 正在 产生 R 所 需要 的 中 间 结 果 X Alt, 流水线 同 时 表现 出 了 三 种 简单 的 
[220] 操作 ， 如 此 在 多 个 数据 值 上 并 行 操 作 。 这 有 助 于 快速 完成 任务 。 
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阶段 3 RO <-Y0+D0 R1<Y1+D1 
阶段 2 YO — X0 + CO Y1 &X1+C1 Y2 «X2 +C2 
阶段 1 | XO< A0 +BO X1 & A1 +B1 X2 + A2 + B2 X3 + A3 + B3 
周期 1 2 3 4 


a ) 水 平方 向 组 织 


周期 阶段 1 阶段 2 阶段 3 
X0 + A0 + BO 
X1 — A1 +B1 YO + X0 + CO 








1 

2 

3 X2 & A2 + B2 Y1 &X1+C1 RO< YO + DO 

4 X3 — A3 + B3 Y2 & X2 + C2 R1<Y1+D1 

5 X4 <— A4 + B4 Y3 — X3 + C3 R2 e Y2+D2 
b) 垂直 方向 组 织 


图 6-5 ”两 个 可 选 的 流水 线 图 表 : a) MARA; b) 从 上 到 下 ; 表示 了 结果 R, R, FF 


流水 线 使 用 更 多 的 硬件 ， 类 似 于 一 个 单 周 期 数据 通路 ， 但 工作 在 一 个 高 频率 的 时 钟 下 ， 
这 点 类 似 于 多 周期 数据 通路 。 而 且 ， 它 能 比 其 他 两 个 数据 通路 更 快 地 处 理 一 系列 的 数据 。 一 
个 流水 线 数据 通路 的 时 钟 周期 正比 于 它 的 最 长 阶段 的 传播 时 延 。 在 图 6-4 中 ， 阶 段 3 有 最 长 ”L221 
的 传播 时 延 ; 它 使 用 了 一 个 加 法 器 /减法 器 模块 ， 而 其 他 两 个 阶段 使 用 了 一 个 加 法 需 模 块 。 
公式 (6-3 ) 估算 了 流水 线 的 时 钟 周 期 。 
T > Aiwa + Ta + Teg + Tes ( 6-3 ) 

图 6-4 中 的 流水 线 数据 通路 被 称 为 线性 流水 线 ， 它 的 三 个 阶段 中 的 每 一 个 只 用 了 一 次 来 
计算 最 终 的 结果 (比如 Ro )。 从 男 一 方面 ， 非 线性 流水 线 使 用 它 的 一 个 或 多 个 阶段 多 次 来 计 
算出 最 终 的 结果 。 非 线性 流水 线 的 设计 与 其 他 的 东西 有 关 。 

一 个 时 钟 周期 中 ,线性 流水 线 的 每 一 个 阶段 都 输入 来 自 其 前 面 紧 相 连 阶 段 的 一 个 或 多 个 
数据 项 。 通 常情 况 ， 第 一 个 阶段 的 数据 要 么 从 外 部 模块 读 入 ， 要么 来 自 内 部 存储 器 。 最 终 的 
结果 要 么 存储 在 一 个 阶段 中 的 存储 模块 (寄存 器 或 内 存 ) 中 ， 要 么 发 送 到 一 个 外 部 模块 上 。 

这 些 将 在 第 8 章 中 进一步 讨论 。 

流水 线性 能 

图 6-5 中 的 流水 线 图 表 a 或 b 的 学 习 揭示 了 作为 第 一 个 结果 的 Ro 需要 三 个 时 钟 周期 来 
计算 (不 包括 第 一 个 所 需 的 时 钟 周期 来 加 载 接口 寄存 器 )， 而 结果 Ri 、R: 等 ， 每 一 个 只 需要 
一 个 时 钟 周 期 来 计算 出 。 这 样 减少 了 总 的 时 间 来 计算 个 最 终 的 结果 。 通 常情 况 下 ， 一 个 大 
阶段 (线性 ) 的 流水 线 需 要 大 个 时 钟 周期 来 产生 它 的 第 一 个 输出 。 公 式 〈6-4 ) 估算 了 使 用 一 
个 大 阶段 线性 流水 线 来 处 理 个 数 为 V 的 数据 流 所 需 的 总 时 间 ， 其 用 时 钟 周期 Tpipeline 表示 。 
die =k*rt +N = teen ( 6-4 ) 

例如 ， 当 N=3, k=3 时 ， 这 种 流水 线 将 共 需 要 5 个 rpipetine 来 产生 三 个 输出 ， 比 如 
图 6-5b 所 示 的 三 个 输出 Ro. Ri 和 R3。 假 设 一 个 单 周 期 数据 通路 的 时 钟 周 期 tsinge - cyce RAI 
ST ' i Tpipeline » 其 中 Tpipeline 是 相关 流水 线 的 时 钟 周期 ， 公式 (6-5 ) 估算 了 使 用 单 周 期 数据 
通路 处 理 个 数 为 NN 的 数据 流 所 需 的 总 的 时 间 。 

T india = N«kx T pipeline (6-5 ) 


pipeline 
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然而 ， 注 意 在 通常 情况 下 ， 即 使 一 个 单 周 期 数据 通路 和 相应 的 阶段 流水 线 都 使 用 市 有 
不 同 传播 时 延 的 不 同 的 组 合 电路 ， Tsingle — cycle 将 会 稍 小 于 k * Tpipelineo | * Tpipeline 的 值 包 括 rT 
寄存 器 的 建立 时 间 和 大 个 时 钟 到 g 的 时 延 的 和 ， 而 Tingle - cyce H A FL ee — TS a FF tit YY) BE VY 
间 和 一 个 时 钟 到 q 的 时 延 的 和 。 k* Tpipeline 也 是 一 个 最 大 和 值 估计 ， 因为 Tpipeline 与 这 个 流水 线 的 
最 长 阶段 的 传播 时 延 成 正比 。 在 图 6-4 中 ，zrpipeine 是 基于 阶段 3 的 传播 时 延 计算 出 来 的 ， 阶 
段 3 使 用 了 一 个 加 法 需 /减法 器 模块 ， 而 其 他 两 个 阶段 每 一 个 使 用 了 一 个 加 法 筑 。 然 而 ， 为 
了 和 相应 的 单 周 期 数据 通路 相 比 时 简化 流水 线 的 性 能 分 析 , Tsingle — cycle Al k * Tpipeline 的 近似 值 
之 间 的 不 同 被 忽略 了 。 

通常 ， 加 速 比 是 一 种 性 能 参数 ， 和 一 个 较 慢 的 系统 进行 对 比 完成 同样 的 任务 时 测试 较 
快 的 系统 的 性 能 。 它 被 定义 为 一 个 较 慢 的 系统 与 一 个 较 快 系统 完成 同一 个 任务 所 需 时 间 的 
比例 。 它 表示 了 和 一 个 等 效 的 较 慢 系统 对 比 时 ， 一 个 较 快 的 系统 有 多 快 。 例 如 ， 公 式 〈6-6 ) 
定义 了 当 处 理 个 数 为 N 的 数据 流 ， T = Tpipeline 时 的 较 快 的 流水 线 数据 通路 和 对 应 的 较 慢 的 单 周 
期 数据 通路 对 比 时 的 加 速 比 。N = 3, K= 3 时 ， 流 水 线 比 单 周 期 数据 通路 大 约 快 1.8 (3 * 3* 
Tpipetine /5 Tpipetine = 1.8) fo M= 1000, K= 3 时， 加速 比 大 约 是 2.99。 注意 ， 当 六 趋 近 于 无 穷 
大 (%) 时 ， 加速 比 增 加 并 趋 近 于 (阶段 的 个 数 )。 倘 奉 处 理 一 个 较 大 的 数据 流 ， 流 水 线 有 
越 多 的 阶段 ， 加 速 比 将 会 越 大 。 当 NN 变 大 时 ， 数 据 流 的 处 理会 更 有 效率 ， 因 为 和 处 理 整 个 
数据 流 所 需 的 总 时 间 相 比 ， 填 充 管道 所 需 的 时 间 可 以 忽略 不 计 。 


T ainge- Nk Nk 
、 了 
MRH = Pon, ktel k+N=1 t66) 


效率 是 用 来 测量 完成 一 个 任务 时 系统 的 资源 分 配 有 多 合理 的 性 能 参数 。 如 果 一 个 流水 线 
数据 通路 的 所 有 阶段 在 任何 时 间 都 处 于 忙碌 中 ， 我 们 就 说 它 的 效率 是 100%。 也 就 是 说 ， 没 
有 空闲 的 阶段 。 例 如 ， 考 虑 图 6-5a 中 的 流水 线 图 表 。 从 第 3 个 时 钟 周期 开始 ， 当 所 有 的 阶 
段 都 在 工作 中 处 理 剩 下 的 计算 ， 这 个 流水 线 的 效率 达到 100%。 然 而 ， 我 们 需要 整体 的 效率 
值 ， 而 不 是 当 所 有 的 资源 都 在 使 用 中 时 。 从 公式 〈6-6 ) 中 得 知 ， 当 计算 量 的 个 数 入 趋 近 于 
无 穷 大 (om ) 时 ， 流 水 线 的 加 速 比 趋 近 于 阶段 的 个 数 开 。 因 此 ， 系 统 的 整体 效率 可 以 定义 为 
它 的 加 速 比 与 它 可 能 的 最 大 加 速 比 的 比率 。 公 式 (6-7) 定义 了 天 个 阶段 的 流水 线 数 据 通路 
的 效率 。 


效率 = BEE ) (6-7) 
将 公式 (6-6) 替换 到 公式 ( 6-7 ) 中 ， 
a ae 
ae = k+N-1 


4 N 趋 近 于 无 穷 大 (o ) 时 ， 如 所 预期 的 ， 图 6-4 中 流水 线 的 效率 趋 近 于 1 100%, 

吞吐 量 是 测量 一 个 系统 处 理 速 率 的 另 一 个 性 能 参数 。 它 代表 了 每 秒 钟 执行 的 事件 的 数量 
(N)。 它 被 计算 为 执行 的 总 的 事件 〈 任 务 、 计 算 量 、 操 作 、 谷 歌 搜 索 等 ) 的 数量 与 所 需 的 总 
时 间 (T) 之 间 的 比率 。 公 式 〈6-8 ) 定义 了 带 有 大 个 阶段 的 线性 流水 线 的 吞吐 量 。 对 于 V= 3， 
k=3, FEKA 0.6r' G/5t), XF N = 1000, k= 3， 它 大 约 是 0.99r' (1000/1002r) 。 
通常 ， 当 WW 趋 近 于 无 穷 (% ) 时 ， 线 性 流水 线 的 吞吐 量 趋 近 于 一 (工作 的 时 钟 频率 )。 例 
如 ， 如 果 图 6-4 中 的 流水 线 的 时 钟 频率 (f= 1/1) 是 1GHz (每 秒 十 亿 个 周期 )， 它 的 峰值 知 
吐 量 (7 ) 将 会 是 十 亿 的 计算 量 (对 每 一 种 4 + B + C+D), 或 者 每 秒 三 十 亿 的 算术 计算 量 
(对 每 一 种 + 或 -)， 不 包括 读 取 输入 数据 所 需 的 延 时 ， 例如， 从 内 存 读 取 并 将 输出 写 回 到 内 
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存 中 。 
N N 
Atte = =a 5 (hie ( 6-8 ) 
正如 第 1 章 中 讨论 过 的 ，CPU 的 数据 通路 是 流水 线 的 ， 因 为 它 执行 很 多 指令 ， 包 括 操 
作 浮 点 数 的 浮 点 型 (FP) 指令 。 对 于 一 个 实现 浮 点 结构 的 数据 通路 ， 它 必须 表现 出 多 种 操 
作 ， 比 如 第 3 章 中 讨论 过 的 初始 化 、 对 齐 小 数 点 、 整 数 算 术 、 正 规 化 和 四 舍 五 人 。 这 些 浮 
点 数 操 作 通 党 被 分 成 几 个 流水 线 阶 段 来 提高 否 吐 量 。 例 如 ， 考 虑 下 面 的 for 循环 中 一 个 浮 
点 ADD 指令 (BI FADD),， 它 将 被 执行 1000 次 来 把 数组 A 中 的 1000 个 元 素 和 数组 B 中 的 
1000 个 元 素 相 加 ， 产 生 数 组 C 中 的 1000 个 元 素 。 在 有 流水 线 浮 点 单元 (FPU) 中 ， 和 单 周 
期 的 FPU 相 比 ， 这 1000 个 加 法 指令 执行 时 将 会 占用 更 少 的 时 间 。 
float A[1000] , B{[1000], C[1000]; 
tnt a: $ 
for(i = 0; i < 1000; i++) 
CHI = A + BE); 


FLOPS (每 秒 浮 点 运算 速度 ) 或 较 少 使 用 的 MIPS (每 秒 执行 的 百 万 条 指令 ) 是 处 理 器 
设计 师 通 常 报告 的 吞吐 量 测试 单元 的 两 个 实例 。 然 而 ,设计 师 通 常 报告 的 这 些 吞 吐 量 单元 经 
稼 是 设计 师 假 设 的 理想 条 件 和 可 能 代表 峰值 的 性 能 值 。 另 外 ，MIPS 可 能 基于 执行 一 组 随机 
的 指令 组 合 。 通 和 常 ， 更 现实 的 性 能 测试 需要 一 些 基 准 ( 现 有 的 标准 ) 程序 的 执行 ， 比 如 测试 
计算 机 系统 性 能 的 称 为 标准 性 能 评估 公司 2006 年 基准 的 计算 密集 型 工作 负载 ， 或 测试 计算 
机 图 形 系 统 性 能 的 图 形 密 集 型 工作 负载 的 SPECviewperf 基准 [3]。 


6.3 ”控制 单元 设计 技术 


一 个 控制 单元 是 一 个 有 限 状 态 机 (FSM)。 作 为 一 个 硬件 控制 单元 ， 控 制 信号 由 一 系 
列 的 组 合 电路 产生 。 为 了 实现 最 大 的 速率 ， 每 一 个 控制 信号 可 以 是 带 有 最 大 值 A ann 或 
3 A nor 的 与 或 (SOP 表达 式 ) 或 或 与 (POS RAR) 电路 的 输出 。 

一 个 控制 单元 可 以 作为 一 个 有 限 状态 图 (FSD ) 被 建 模 或 使 用 之 前 章节 中 讨论 过 的 位 并 
行 方 式 来 设计 。 然 而 ， 一旦 一 个 硬件 控制 单元 被 创建 了 ， 如 果 它 有 设计 错误 ， 将 不 可 修复 ， 
尤其 是 如 果 它 实现 一 系列 非常 复杂 的 算术 。 一 个 高 性 能 的 流水 线 数据 通路 通常 由 一 个 硬件 控 
制 单元 控制 。 

另 一 方面 ， 被 称 为 微 程序 控制 的 基于 内 存 的 控制 单元 ， 在 IC 的 内 存 中 保存 控制 信号 的 
值 。 万 一 将 来 手工 地 将 一 些 设 计 错 误解 决 了 ， 内 存 中 的 内 容 可 以 被 更 新 。 然 而 一 个 基于 内 存 
的 控制 单元 可 能 较 慢 ， 取 决 于 内 存 的 大 小 。 它 使 用 远大 于 3 A nano 的 时 间 来 完成 一 次 内 存 读 / 
写 操作 ， 这 将 在 第 7 章 中 进行 讨论 。 

微 程序 控制 的 应 用 几 年 来 已 经 减少 ， 尤 其 因为 与 复杂 指令 集 计 算 机 (CISC) 结构 形成 
对 比 的 精简 指令 集 计 算 机 (RISC) 的 优势 。 与 CISC HH, XF RISC, CPU 拥有 更 简单 、 
更 少 的 指令 。 因 此 ， 很 容易 设计 出 一 个 硬件 控制 单元 来 控制 一 个 RISC 数据 通路 。RISC 和 
CISC 将 会 在 第 8 章 中 进行 讨论 。 

微 程序 控制 应 用 的 减少 也 因为 现在 有 现代 HDL 综合 工具 的 可 用 性 。 这 个 工具 已 经 简化 
了 硬件 控制 单元 的 设计 和 验证 。 然 而 ， 当 设计 一 个 含有 较 大 数量 状态 的 控制 单元 时 ， 或 者 当 
有 必要 将 一 个 传统 的 CISC 指令 翻译 成 一 系列 简单 的 操作 并 通过 一 个 更 有 效 的 RISC 数据 通 
路 来 实现 时 ， 微 程序 控制 将 仍然 被 用 到 [4]。 
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6.3.1 硬件 控制 单元 : FSD 


图 6-6 表示 了 图 6-3 中 给 出 的 多 周期 数据 通路 ， 并 带 有 它 的 控制 单元 的 FSD 模块 。 这 
个 FSD 有 4 个 状态 ， 并 用 RIN 定义 了 数据 通路 的 操作 。 这 个 控制 单元 产生 数据 通路 的 控制 
信号 ， 当 外 部 输入 信号 mode = 0 时 在 4 个 时 钟 周 期 内 来 计算 4+B+C+D 的 值 ， 或 当 外 部 
输入 信号 mode = 1 时 在 4 个 时 钟 周期 内 来 计算 4 + B+ C 一 DD 的 值 。 这 个 结果 将 被 存储 在 数 
据 通 路 的 寄存 器 中 。 当 插入 了 外 部 输入 信号 start 后 ， 会 触发 计算 的 启动 。 相 反 ， 图 6-7 描 
述 了 带 有 实际 控制 信号 的 FSD。 注 意 ， 数 据 通路 的 操作 由 RTN 指定 比 由 实际 的 控制 信号 来 
指定 更 容易 鉴别 一 个 FSD。 


B D 


Ux 2 


0 
组 合 逻 辑 
(MUX1) A 





1:A+B+C-D 


clk, reset 


6-6 解释 图 6-3 中 由 RTN 表示 的 数据 通路 的 基于 FSM 的 控制 单元 ， 其 中 “d ”表示 不 关心 


图 6-8 摘 述 了 带 两 个 触发 器 : 下 个 状态 发 生 右 《NSG) AA ih REA (COG) 的 相应 的 
FSM 的 详细 框图 。OG 负责 产生 数据 通路 的 控制 信号 。 在 每 一 个 时 钟 周期 中 ， 只 有 与 指定 的 
数据 通路 操作 相关 的 控制 信号 才 会 被 插入 。 例 如 ， 最 初时 ， 当 start = 0 时， 寄存 器 R 被 关 
闭 ， 数 据 通 路 被 认为 “无 动作 ”。 当 start 变 为 1， 控制 单元 插入 e ( 即 e = 1),， 使 能 了 寄存 
能 RR， 使 得 s。= 0， 因 此 选择 器 选择 了 输入 A。 在 每 个 时 钟 周 期 中 ， 只 有 产生 指定 的 数据 通 
路 操作 所 需 的 控制 信号 才 会 被 插入 ， 而 其 他 控制 信号 将 不 被 插入 或 必要 时 置 为 不 关心 (d)。 
NSG 模块 完成 由 算法 规定 的 数据 通路 必须 实现 的 操作 的 顺序 的 指定 。 按 照 第 5 章 中 FSM 的 
设计 步骤 可 以 完成 这 个 设计 。 


6.3.2 ” 微 程序 控制 


一 个 微 程 序 控制 单元 使 用 一 个 称 为 控制 存储 器 ( CM) 的 内 存 来 存储 一 个 称 为 微 程序 的 
算法 的 描述 。 这 个 程序 由 一 系列 的 微 指 令 组 成 ， 其 中 每 一 个 都 指定 了 一 个 或 多 个 称 为 微 操作 
的 数据 通路 操作 。 每 一 条 微 指令 也 包括 微 程 序 流 控制 信息 ， 它 以 “ 跳 转 ”或 “不 跳 转 ”的 方 
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式 来 决定 接 下 来 将 执行 哪 条 微 指令 。 








基于 FSM 的 控制 单元 模型 
e=0,s2=d, | 
start . start=0, mode=d/ < s1=d,m=d, | 
sO=d | 
mode ! o 二 
i 1, s2=d, | 
d/< si=d, | 
m=d, | 
s0=0 L 


~- 


start=d, | e=1,s2 
mode=0/ < s1=0 


s0=1 


| 
| 
| 
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B D 
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| 1 
mone. 0 2 
i ee 组 合 逻 辑 
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s7_ 78 
| 80. om. 
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mode 
1:A+B+C-D 


clk, reset 
6-7 6-6 中 带 有 实际 控制 信号 的 FSD; d 表示 不 关心 227 
基于 FSM 的 控制 


控制 信号 





Start, mode 


reset 


6-8 基于 FSM 的 控制 单元 的 详细 框图 


图 6-9 表示 了 用 图 6-3 中 多 周期 数据 通路 计算 RR*-4 + B+ C+D 的 微 程序 。 注 意 ， 微 
程序 读 起 来 像 一 个 程序 。 它 由 5 条 微 指令 组 成 ， 其 将 被 翻译 为 二 进 制 ， 被 称 为 微 代 码 ， 并 将 
被 保存 在 CM 的 加 载 位 置 (也 就 是 地 址 ) 0 ~ 5 处。 这 段 微 程序 由 三 种 类 型 的 微 指令 组 成 。 

地 址 0 处 的 微 指 令 ， 或 者 简单 地 说 指令 0， 包 括 条 件 “if start == 0” 和 类 似 while 循环 
的 操作 ， 该 操作 每 个 时 钟 周 期 都 会 检查 start 的 值 ， 直 到 这 个 信号 变 为 1， 然后 这 个 控制 转 
向 了 指令 1, AM, WR start = 0， 指 令 0 再 次 执行 。 这 个 条 件 “ if start == 0” 和 地 址 OT 
生 了 指令 0 的 流 控 信息 。 注 意 ， 除 此 以 外 ， 指 令 0 不 包括 由 RIN 所 列 出 的 任何 微 操 作 。 
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微 程序 控制 器 模块 

| 
| a 
| O:if start == 0 then goto 0; - 60 B D 
| 1:R A; , 

start | 2:ReR+B; o% T 2 

mode | 3:R&R+C; | s251 A 

= = if mode == 0 then R e R + D, goto 0; ! poe 
- §5:R—R-D, goto 0; | œe A 
| i mode 
Se ee 
clk, reset 





6-9 ”使 用 微 程序 控制 的 图 6-3 中 的 多 周期 数据 通路 


指令 1 ~ 3， 每 一 个 只 包含 一 个 微 操 作 ， 它 们 不 是 条 件 性 的 ， 而 是 顺序 执行 。 这 三 条 指 
令 的 程序 流 控 制 信息 是 执行 下 一 条 指令 。 指 令 4 也 是 条 件 性 的 。 它 检查 是 否 满足 mode = 0, 
如 果 是 0， 它 完成 一 个 微 操 作 ， 然 后 跳 转 到 指令 0， 微 程序 的 开始 位 置 。 条 件 “ if mode == 0” 
和 地 址 0 组 成 了 指令 4 的 流 挖 信息。 否则， 如 果 mode = 1， 指 令 5 (下 一 条 指令 ) 执行 ， 这 
是 一 条 非 条 件 性 指令 ， 另 外 还 表现 出 一 个 微 操作 (一 个 RTN)。 指 令 5 也 会 表现 出 “ go to 0” 
一 一 一 种 非 条 件 性 的 到 地 址 0 的 跳 转 一 一 其 中 0 是 这 条 指令 的 流 控 信息 。 

图 6-10 表示 了 一 个 微 程序 控制 单元 的 详细 框图 。 它 由 一 个 CM 和 下 个 地 址 发 生 器 
(NAG) 组 成 ， 其 中 后 者 在 CM 中 产生 下 一 条 微 指令 的 地 址 。 它 也 由 一 个 叫 作 微 程 序 计 数 器 
(MPC) 的 多 功能 计数 器 和 一 个 1 位 的 上 =- 1 选择 器 组 成 ， 其 中 大 是 条 件 信 和 号 的 个 数 ( 即 start 
和 mode) 加 2 ; 在 这 种 情况 中 上 = 4。MPC 记录 当前 正在 执行 的 微 指令 的 地 址 。 在 每 个 时 钟 
周期 中 , MPC 要 么 将 它 记录 的 当前 指令 的 地 址 加 1， 要么 从 CM 中 加 载 一 个 新 ( 跳 转 ) 地 址 。 
选择 器 决定 了 哪 一 种 功能 ， 加 1 还 是 加 载 ， 然 后 由 MPC 进一步 完成 。 在 这 个 图 中 ，MPC 被 
设计 为 当 load = 1 时 去 加 载 一 个 跳 转 地 址 ， 或 者 当 Joad = 0 时 它 的 值 加 1。 


下 个 地 址 发 生 器 (NAG ) 










微 程序 计数 器 (MPC) ”人 





如 果 load = 1, MPC—Jump_Address 
$n load = 0, MPC<-MPC+1 







地 址 ( 索引 ) 


控制 存储 器 ( CM ) 
( 微 代码 表 ) 


数据 ( 表 条 目 ) 


Jump_Address 


控制 信号 
6-10 ”一 个 微 程序 控制 单元 的 详细 框图 
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一 段 微 代码 被 组 织 为 一 张 表 ， 并 存储 在 CM 中 。 每 一 个 表 条 目 包 括 一 个 条 件 代 码 ， 一 
系列 控制 信号 ， 可 能 还 有 一 个 跳 转 地 址 。 表 6-2 中 列 出 了 4 种 任意 指定 的 条 件 代 码 来 实现 
图 6-11 中 所 解释 并 在 图 6-9 中 所 表达 的 微 程序 控制 。 每 一 种 条 件 代 码 选择 出 4-1 选择 器 的 4 
个 输入 中 的 一 个 来 作为 加 载 的 信和 号 值 。 


表 6-2 6-9 中 微 程序 的 条 件 代码 


条 件 代码 NSG (下 个 地 址 发 生 器 ) 
(cico ) ) MPC 选择 器 输出 
If start == 0 then 
10 MPC +— Jump_Address load = start 


else MPC + MPC + 1 


If mode == 0 then y 
11 MPC +— Jump_Address load = mode 
else MPC «- MPC + 1 





a2a1a0 


图 6-3 中 多 周期 数据 通路 。 “1 


6-11 6-9 中 多 周期 数据 通路 的 微 程序 控制 单元 


条 件 代 码 0 (cico = 00 ) 被 指定 为 这 条 微 指令 是 非 条 件 性 的 ， 比 如 图 6-9 中 的 指令 1 ~ 3。 
这 个 代码 代表 了 “ 非 跳 转 ”声明 (使 得 load = 0 )， 这 会 使 指向 当前 微 指 令 的 MPC 在 下 个 时 
钟 周期 加 1。 代 码 1 (cico = 01) 代表 了 一 个 “ 跳 转 ”声明 (使 得 load = 1 )。 它 被 指定 为 这 
条 微 指令 是 非 条 件 性 的 ， 比 如 指令 5。 代 码 2 (cice = 10 ) 被 指定 为 微 指令 0。 它 代表 了 “让 
start == 0” 条件， 并 通过 选择 器 使 得 load = start, WÈ start =0， 然 后 load=1 (WWE); F 
则 , load = 0( 不 跳 转 )。 最 后 ， 代 码 3(cico = 11 ) 被 指定 为 微 指令 4。 它 代表 了 “if mode == 0” 
条 件 ， 并 通过 选择 器 使 得 load = mode, 

K 6-3 列 出 了 图 6-9 中 微 程序 的 微 代码 。 它 有 6 行 ， 每 一 个 10 位 的 二 进 制 是 一 条 微 指 
A {cico, S2, 51, So, €, M, qza1ao} 的 代表 。 这 个 二 进 制 的 代表 在 最 后 一 列 中 也 以 十 六 进 制 的 形式 
表示 了 出 来 。 
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表 6-3 图 6-9 中 微 程序 的 微 代 码 


aire ae aa 
204 


d: 代表 不 关心 ， 而 且 存 储 在 CM PITRE A 0 





6.3.3 MAR: 流水 线 


流水 线 所 有 阶段 所 需 的 控制 信号 都 是 一 次 产生 ， 但 在 恰当 的 时 间 分 配给 每 个 阶段 。 只 完 
成 一 个 简单 操作 的 阶段 不 需要 控制 信号 。 图 6-12 表示 了 图 6-4 中 带 有 流水 线 控制 单元 的 流 
水 线 数据 通路 。 这 个 数据 通路 实现 和 N 次 计算 ,每 一 次 都 是 A + B; + Ci+ D;， 其 中 i= 0, 1, 2, 
=, N- 1。 信号 mode; 确定 这 个 数据 通路 将 要 表现 出 的 最 后 的 算术 操作 是 加 法 还 是 减法 。 这 
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m 时 钟 和 复位 
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6-12 一 个 流水 线 控制 单元 和 图 6-4 中 的 流水 线 数据 通路 


At AP eB: AAKT 181 


个 图 中 所 有 的 寄存 器 都 被 即将 到 达 的 start 信 号 所 使 能 。 假 设 start 将 会 保持 逻辑 1 (有 效 ) 
为 N+ 4 个 时 钟 周期 这 是 完成 N 次 计算 所 需 的 时 钟 周 期 的 数量 (也 包括 接口 寄存 器 所 需 的 
第 一 个 时 钟 信号 )。 在 入 个 时 钟 周 期 的 每 一 个 周期 中 ,信号 mode; 和 4 个 数据 值 4; ~ D; 都 
要 送 入 流水 线 中 ,但 是 mode, 要 从 一 个 阶段 中 进入 下 一 个 阶段 ， 直 到 在 阶段 3 中 它 被 用 来 产 
生 最 终 的 结果 ， 这 个 结果 为 当 mode: = 0 WH) Yi + Di, 或 当 mode;= 1 WFH) Y; - Di。 最 后 4 个 
周期 时 的 mode, 的 值 置 为 不 关心 。 注 意 ， 在 这 种 情况 中 ， 流 水 线 控制 单元 只 使 用 一 系列 的 寄 
存 器 ， 而 不 使 用 组 合 电路 ， 除 了 start， 阶 段 1 和 阶段 2 不 需要 其 他 控制 信号 。 


6.4 能 源 和 功率 消耗 


如 第 1 章 所 说 的 ， 随 着 晶体 管 的 数量 和 集成 芯片 工作 时 钟 频率 的 上 升 ， 它 们 也 会 消耗 更 
多 的 功率 并 释放 更 多 的 热量 。 考 虑 到 第 1 章 中 介绍 过 接 下 来 也 将 会 表示 出 的 CMOS 反 回 门 
电路 。 回 忆 在 CMOS 电路 中 ，pMOS Ail nMOS 晶体 管 是 互补 的 ; 一 旦 门 输出 稳定 在 逻辑 1 
或 逻辑 0 电 平时 ， 一 个 晶体 管 会 保持 打开 状态 ， 另 一 个 保持 关闭 状态 。 

在 图 6-13 中 ， 电 路 中 还 有 一 个 电容 C， 它 的 大 小 决定 了 这 个 门 输出 时 为 电容 充电 和 产 
ERHI 必要 的 动态 电荷 的 数量 。 它 被 称 为 动态 能 量 ， 因 为 门 的 输入 和 输出 不 是 立即 从 逻辑 
1 变 为 逻辑 0 或 从 逻辑 0 变 为 逻辑 1， 正 如 2.6 节 所 讨论 的 (第 2 章 )。 例 如 ， 当 输入 x=1 
时 ，pMOS 和 nMOS 晶体 管 分 别 保持 关闭 和 打开 状态 〈 不 再 表示 )。 当 x 开 始 从 逻辑 1 电 平 
变 为 逻辑 0 电 平 ， 两 个 晶体 管 都 开始 切换 。 每 个 晶体 管 变 为 半 开 或 半 关 状态 直到 x 变 为 逻辑 
0 电 平 。 此 时 ， 如 图 中 所 示 ，pMOS 和 nMOS 都 已 经 完全 切换 到 了 打开 和 关闭 状态 ， 只 要 x 
保持 逻辑 0， 它 们 会 保持 在 打开 和 关闭 状态 。 
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6-13 $1 章 中 的 CMOS 非 门 电路 描述 当 x 发 生 1-0 变化 时 电容 充电 ， 致 使 输出 端 发 生 0-1 变化 


在 x 发 生 1-0 变化 和 非 门 输出 端 发 生 0-1 变化 的 晶体 管 转换 时 间 ， 电 路 被 称 为 短路 。 在 
这 个 时 间 里 ， 一 定量 被 称 为 直通 电流 的 电流 从 Vo 流向 地 。 非 门 发生 0-1 变化 从 电源 输出 的 
AERE CV 。 这 些 总 能 量 中 ， 一 半 作 为 热能 消失 ， 一 半 存 储 在 电容 中 ， 正 如 公式 〈6-9 ) 
中 简化 形式 指定 的 那样 。 


能 量 存储 在 电容 中 : E = | Co dv = 地 CVoo* 焦耳 (6-9) 
其 中 “焦耳 ”是 能 量 的 单位 。 然 而 ， 非 门 输出 端的 1-0 变化 不 会 从 能 源 上 消耗 能 量 。 而 
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是 存储 在 电容 中 的 能 量 ( 广 CYoo?) 释 放 到 了 地 上 ， 如 图 6-14 中 描述 的 那样 。 这 被 称 为 1-0 变 
化 动态 能 量 ， BF Ey omic m Z CVa? 
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DCI100MOhm 


6-14 第 1 章 中 的 CMOS 非 门 电路 描述 当 x 发 生 0-1 变化 时 电容 放电 ， 致 使 输出 端 发 生 1-0 变化 


非 门 作为 热能 释放 的 动态 总 能 量 是 由 公式 (6-10) 所 示 的 门 输出 端 单 向 0-1 或 1-0 变化 
引起 的 : 


非 门 输出 端 每 次 0-1 或 1-0 RL RAW ABA H HEE: 
Bisnis i SCV pp" 焦耳 
回忆 在 时 序 电 路 中 ， 每 个 时 钟 周 期 中 信和 号 会 发 生 0-1 或 1-0 变化 ; 一 些 信号 会 发 生 从 0 
到 1 的 变化 ， 而 男 一 些 发 生 从 1 到 0 的 变化 。 然 后 每 个 信和 号 会 保持 它 的 最 终 逻 辑 0 或 1, A 
到 下 一 个 时 钟 周期 。 公 式 (6-11) 定义 了 一 个 时 序 电路 在 一 个 时 钟 周期 中 消耗 的 总 动态 功率 
(用 瓦特 计 )。 它 由 电路 在 一 秒 内 消耗 的 总 动态 能 量 〈 用 焦耳 计 ) 确定 。 在 公式 中 ，r 和 了 分 别 
代表 了 时 钟 信号 的 周期 和 频率 ，Clow 代表 了 电路 中 总 的 等 效 电 容 ; Coa 由 所 有 门 ( 非 门 、 与 
非 门 等 ) 的 电容 和 电路 中 所 有 的 连 线 确定 。 
公式 〈6-11 ) 表示 当时 钟 频率 增加 时 ， 电 路 中 的 0-1 和 1-0 变化 的 数量 也 会 增加 。 反 过 
来 ， 这 会 增加 由 电路 产生 的 热能 消耗 的 总 动态 功率 。 这 有 三 种 方式 ， 其 中 一 种 可 能 会 减少 一 
个 复杂 电路 消耗 的 动态 功 耗 : 
E 


Pananie = AE EX ARE/ BD 


(6-10 ) 


或 Pa E Diii *f 瓦特 ,其 中 f= 一 (6-11) 


] 
F dynamic 一 Ctra Viol 瓦特 


© WAER, Cona 

© 减 小 提供 的 电 平 ，Vpp 

© 减 小 时 钟 频率 ，f 

然而 ， 电 容 的 大 小 或 更 确切 地 说 电容 的 影响 取决 于 许多 参数 ， 其 中 包括 电路 的 拓扑 结构 
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(这 些 门 和 它们 的 连接 方式 ) [5]。 另 外 ， 如 果 电 路 中 的 电子 脉冲 更 少 一 些 ， 消 耗 的 动态 功 耗 
可 以 减少 。 想 起 这 些 电子 脉冲 在 电路 中 是 不 想 要 的 信和 号 传输 ， 因 此 ， 它 们 会 导致 不 必要 的 电 
容 充 放电 ， 同 时 造成 总 动态 能 量 作 为 热量 的 释放 。 因 为 电子 脉冲 发 生 在 信号 没有 同时 到 达 门 
的 输入 ， 设 计 出 带 有 相同 上 升 时 间 和 下 降 时 间 可 以 消除 一 些 电子 脉 冲 ， 减 少 一 些 动态 功率 的 
使 用 。 

除了 动态 功率 ， 电路 也 会 消耗 静态 (待机 ) 功率。 这 是 当 没 有 晶体 管 发 生 切 换 时 电路 使 
用 的 功率 总 量 。 这 种 消耗 是 因为 电路 输入 是 静态 的 (不 发 生变 化 )， 输 出 是 代表 逻辑 1 或 逻 
辑 0 的 固定 的 直流 电 平 。 在 这 种 情况 中 ， 一 定量 的 被 称 为 DC 电流 ( 1bp) 或 漏电 电流 的 电流 
会 流 过 关闭 的 晶体 管 。 公 式 (6-12 ) 定义 了 电路 的 静态 功 耗 。 

Paaie = Von! pp ( 6-12) 

在 电路 中 能 量 和 功率 消耗 减少 的 同时 ， 比 较 两 个 复杂 电路 效率 的 首选 指标 是 能 量 (比如 
处 理 器 ) [6]。 从 公式 (6-11) 中 得 知 ， 如 果 我 们 增加 时 钟 频 率 ， 执 行 任 务 的 动态 功率 的 消耗 
也 会 增加 。 然 而 ， 动 态 能 量 的 消耗 保持 不 变 ( 恒 量 )。 参 考 一 个 实例 ， 两 个 处 理 器 A 和 B。 
现在 假设 ， 在 一 个 程序 的 执行 中 ， 处 理 器 A 的 动态 功 耗 P 比 处 理 器 B 消耗 的 Ps 大 (EP Py > 
Ps)。 然 而 ， 处 理 器 A 执行 程序 时 比 处 理 器 B 快 ， 即 < te, 其 中 4 和 ts 分 别 代 表 处 理 器 A 
和 B 执行 程序 的 时 间 。 在 这 种 情况 中 ， 也 可 能 会 发 生 处 理 器 A 比 处 理 器 B 更 节能 。 

假设 ， 对 于 给 出 的 程序 , Pitk Ps £ 20%, 页 比 在 少 40%。 也 就 是 说 ， 处 理 器 A 比 处 理 
器 B 大 20% 的 功率 ， 但 执行 得 更 快 一 些 ， 只 需要 处 理 器 B 执行 程序 所 需 时 间 的 60%。 换 名 
话说 ，P= (1 + 0.2) Ps, te =(1-0.4) ts。 因 此 ， 从 公式 (6-13 ) 中 可 知 ， 处 理 A 只 消耗 处 
HAF B 消耗 能 量 的 72%。 


P= 从 等 式 (6-11) 的 执行 时 间 可 得 ， 或 者 


E= P,*t, 
= (1 +0.20)P, * (1 -0.30)t, (6-13) 
= (1L2)P, * (0. 60)t, 
= (0.72) P,*f, 
= 0.722, 


其 至 在 程序 的 执行 期 间 ， 处 理 器 A HS BEA AAS, (Ab aS A 比 处 理 
ar B 更 好 一 些 ， 因 为 它 少 消耗 28% 的 总 能 量 。 处 理 顺 B 消耗 更 少 的 动态 功率 ,但 是 因为 它 
花费 更 长 的 时 间 来 执行 程序 ， 整 体 上 ， 处 理 器 B 比 处 理 器 A 消耗 更 多 的 动态 能 量 。 正 如 第 
1 章 中 讨论 过 的 一 样 ， 一 个 复杂 的 集成 电路 的 功率 和 冷却 的 要 求 ( 即 热 设 计 功率 ) 可 以 纳入 
其 参考 ， 使 其 时 钟 频率 可 以 增加 ， 来 提高 性 能 ， 满 足 其 冷却 要 求 。 


6.5 设计 实例 


在 第 3 章 ， 一 个 无 符号 的 乘法 器 由 几 个 加 法 模块 被 设计 成 一 个 组 合 电路 。 作 为 一 个 时 
序 电 路 ， 一 个 多 周期 的 乘法 需 可 以 减少 硬件 使 用 ， 一 个 流水 线 式 的 乘法 器 可 以 提高 吞吐 量 。 
K 6-4 列 出 了 一 系列 的 设计 实例 。6.5.1 节 展 示 了 无 符号 多 周期 乘法 需 的 设计 ， 使 用 了 由 有 
限 状 态 图 设计 而 出 的 硬件 控制 单元 。6.5.2 节 展 示 了 有 符号 多 周期 乘法 器 的 设计 ， 使 用 了 微 
程序 控制 单元 。 这 种 有 符号 乘法 器 仅 用 了 一 个 加 法 / 减法 模块 ， 并 反复 地 去 处 理 两 个 2 补 码 
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MF. 6.5.3 节 表 示 了 一 个 基本 图 形 流水 线 的 设计 ， 它 实现 了 一 个 二 维 (2-D) AY CORDIC (44 
标 旋 转 数字 计算 机 ) 算法 。 通 常 , CORDIC 算法 可 用 于 实现 基本 的 复杂 函数 ,包括 三 角 函 数 、 
双 曲 、 对 数 、 指 数 和 平方 根 。 表 中 最 后 两 个 大 的 时 序 电 路 的 设计 将 在 第 8 章 中 涉及 。 


表 6-4 一 系列 大 型 时 序 电 路 设计 实例 


设计 实例 数据 通路 类 型 控制 类 型 


无 符号 串 行 乘法 器 电路 控制 ， 由 有 限 状态 图 设计 6.5.1 节 
ESETRE snm | 语族 ë O o ë Tom 
计算 机 图 形 学 : —# CORDIC 算法 | ”流水 线 a | 流水 线 式 | 633 
ge-cru CHEE ER N 由 位 并 行 设计 方法 学 设计 (第 3 AN 
一 个 简单 的 流水 线 式 CPU 流水 线 式 第 8 章 


6.5.1 无 符号 品行 乘法 器 

串 行 乘法 器 的 优点 是 它 仅 通过 一 个 加 法 器 使 用 多 周期 的 数据 通路 分 布 计算 出 两 个 数据 的 
结果 。 每 一 步 中 ， 下 一 个 加 数 加 到 之 前 出 现 加 数 的 累加 和 上 。 如 之 前 所 讨论 过 的 ， 多 周期 数 
据 通 路 有 一 个 缺点 是 比较 慢 ， 但 它 使 用 的 硬件 少 。 这 一 节 介 绍 无 符号 乘法 器 的 数据 通路 以 及 
它 基 于 有 限 状 态 图 的 控制 器 。 这 一 节 也 将 会 讨论 可 选 的 硬件 描述 语言 (HDL) 设计 模型 ， 以 

及 将 会 提供 这 个 乘法 器 所 有 的 Verilog 行为 建 模 的 代码 ， 还 有 仿真 结果 也 将 进行 讨论 。 

1. 数据 通路 

6-15 描述 了 使 用 一 个 加 法 器 、 三 个 寄存 器 和 一 个 模 n + 1 计数 器 设计 的 无 符号 乘法 
铝 的 数据 通路 。A 和 B 都 是 n 位 的 寄存 器 ， 被 用 来 加 载 n 位 的 被 乘 数 4_value Al n 位 的 乘 数 
B value, P 寄存 器 用 来 加 载 每 次 两 个 乘法 加 数 相 加 后 的 n+ 1 位 的 部 分 和 (包括 输出 进位 )。 
回想 一 下 ， 一 个 加 数 是 A 寄存 器 的 所 有 位 和 一 个 B 寄存 器 位 进行 位 运算 AND 之 后 的 结果 。 
这 里 ， 加 数 中 只 有 不 为 零 的 位 进行 了 加 法 ,减少 了 总 体 的 计算 时 间 。 因 此 ， 硬 布线 AND 电 
路 在 第 3 章 中 作为 组 合 电 路 被 用 在 乘法 器 的 设计 中 是 不 必要 的 。 如 果 b; = 1, addendi = A_ 
value ; 否则 addenq; = 0， 而 且 把 加 数 加 到 部 分 和 的 步骤 要 被 跳 过 。 而 且 ， 每 一 个 乘法 步骤 
之 后 寄存 器 B 将 会 被 右 移 ， 因 此 它 的 最 低 有 效 位 (LSB) bo 用 来 确定 下 一 个 加 数 的 值 。 计 数 
句 用 来 记录 产生 最 终结 果 的 n RBM KA. 


B_value A_value 









n 位 加 法 器 





co ( 输出 进位 ) 






6-15 一 个 多 周期 无 符号 乘法 器 的 数据 通路 
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在 第 一 个 时 钟 周期 ， 所 有 的 这 三 个 寄存 器 和 计数 器 都 被 初始 化 。 每 次 部 分 和 产生 之 后 ， 
这 个 和 都 被 加 载 到 寄存 器 P 中 。P 和 B 寄存 器 然后 都 要 右 移 。 这 样 简化 了 算法 并 减少 硬件 数 
量 。 尤 其 是 ， 这 种 右 移 会 实现 1 ) 将 当前 的 bo WEB 中 的 更 高 位 ; 2) 组 织 好 下 个 乘法 步骤 
所 需 的 部 分 和 位 ; 3) P 和 B 寄存 器 同步 右 移 时 将 了 P 的 LSB 加 载 到 B 中 。 最 终 产 生 的 结果 将 
被 存储 在 P 和 了 B 寄存 器 中 。 之 前 提 到 的 步骤 被 作为 乘法 器 算法 总 结 如 下 : 


串 行 无 符号 乘法 算法 

A & A value, 

B ¢ B value, //īnitialization, all done in 

CNTR & 0, //one clock cycle 

P € O; 

Repeat 

If (b0 = 1) BE //add the next non-zero addend 

P[n-1:0] + A; . //to the current partial sum to 
//produce a new partial sum. It is 
//assumed that adding and 
//loading the sum into the P takes 
//one clock cycle 

(P, B} € {P, B} >> 13 //right shift P and B registers 

CNTR & CNTR + 1; //simultaneously. This will 
//lineup the P bits for the next 
//cycle; and also replace b0 with 
//the next higher bit in B. The 
//counter is incremented to keep 
//track of number of iterations. 
//One clock cycle is needed to do 
//both the shifting and the 
//incrementing 

Until CNTR < n; //repeat n times 


# 6-5 表示 了 A_value = 7 = (111) Fl B_value = 5 = (101). 时 的 无 符号 乘法 器 算法 的 每 一 
步 说 明 。 三 步 之 后 ， 放 在 {P[2:0], B} 中 的 6 位 结果 是 (100, 011):， 或 者 说 十 进 制 中 的 35. 


表 6-5 无 符号 数 A_value = (111) 和 B_value = (101): 相 乘 的 分 布 说 明 


PIPE | 6 | A TE 
o | oo | o | i | e 


Com | w [| m bo=1, Att P —P[2:0] +A 
am | w y w (P, B) 右 移 并 填充 0 

own | uw | m | b0 = 0， 因此 了 保持 不 变 
o% | m | m | (P, B) 右 移 并 填充 0 
lo | m | m | bo=1, itt P + P[2:0] +A 
| too | o mm (P, B) AARE 0 


2. 控制 单元 设计 : FSD 

使 用 HDL 和 /或 原理 图 设计 工具 去 设计 一 个 大 的 时 序 电 路 有 多 种 方式 。 下 面 概括 了 所 
有 类 型 的 数据 通路 和 控制 郁 的 三 种 通用 的 设计 实践 : 

I 全 结构 式 一 一 这 种 设计 将 会 用 到 相互 关联 的 模块 的 层次 结构 ， 所 有 层次 结构 中 的 叶子 
模块 将 使 用 布尔 表达 式 ( 即 使 用 assign 语句 ) 或 电路 (即使 用 基本 门 ) 进行 建 模 。 这 些 模 块 
然后 将 通过 显 式 声明 的 控制 信和 号 进行 内 部 互 连 。 这 种 选择 不 推荐 在 非常 大 的 设计 中 使 用 。 为 
外 ， 可 以 使 用 原理 图 设计 工具 。 
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[混合 式 一 一 这 种 设计 将 同时 使 用 结构 建 模 和 行为 建 模 。 在 这 种 情况 中 ， 分 层 模块 将 为 
叶子 模块 使 用 行为 建 模 (BI always 块 )， 然 后 使 用 显 式 声明 的 控制 信号 进行 内 部 互 连 。 也 可 
以 使 用 带 HDL 接口 的 原理 图 设计 工具 。 

亚 全 行为 式 一 一 这 种 设计 描述 带 有 由 RTN 所 表示 数据 通路 操作 的 有 限 状态 图 的 电路 模 
块 的 行为 。 这 种 设计 不 需要 明确 的 RTN 一 一 相关 的 控制 信和 号。 

首先 我 们 先 说 明 无 符号 乘法 电路 的 设计 要 求 ， 先 由 图 6-15 中 操作 每 一 个 寄存 器 和 计数 
合 所 需 的 明确 声明 的 控制 信号 开始 。 表 6-6 列 出 了 一 系列 每 一 个 寄存 器 A、B、P AT Ras 
(CNTR) 所 必须 实现 的 功能 。A 是 一 个 单 功能 并 行 加 载 寄存 器 ; B 是 一 个 双 功 能 并 行 加 载 和 
HEATA P 是 一 个 三 功能 的 并 行 加载 、 右 移 和 同步 清 零 寄 存 器 。CNTR 是 一 个 双 功 能 的 
四 上 计数 和 同步 清 零 计数 器 。 


表 6-6 RIN 表示 的 寄存 器 和 计数 器 功能 


功 能 a xX 
At 一 A value; 并 行 加 载 
B +B value; 并 行 加 载 
B + {P[0], B[n - 1:1]}; 右 移 ， 左 端 输入 (Li) 
Pe 6; 同步 初始 化 为 0 
P + {co, sum}; 并 行 加 载 
P — {0, P [n:1]}; ABIES 
CNTR 一 0: 同步 初始 化 为 0 
CNTR + CNTR + 1; 增 量 


对 于 所 有 的 结构 式 (选择 1) KIRA GERI) 设计 ， 所 有 的 寄存 器 和 计数 器 必须 被 
指定 到 一 系列 的 控制 信号 上 ， 即 图 6-16 中 所 示 。 一 个 简单 的 组 合 电路 (CC) 用 于 将 一 个 
CNTR 产生 的 多 位 的 输出 转换 为 控制 单元 所 用 的 单位 的 标志 信和 号。 如果 count=n, flag=1; 
否则 ，fiag = 0。 表 6-7 列 出 了 明确 的 控制 信号 的 值 和 每 一 个 相关 的 数据 通路 操作 。 假 设 这 
些 寄存 器 和 计数 器 由 不 带 使 能 信和 号 的 触发 器 设计 实现 。 


B_value -A_value 
pf1 P bf1 
aA oee A ee E s 
n bo n 


P[n-1:0] 


co ( 输出 进位 ) 





图 6-16 和 融 有 控制 信号 的 无 符号 乘法 器 的 数据 通路 
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% 6-7 HDL 结构 建 模 的 图 6-16 数据 通路 的 控制 信号 
描 $ 

寄存 器 A 的 单 控制 信号 ， 使 能 或 禁用 寄存 器 

使 能 寄存 器 A 进行 并 行 加载 

禁用 寄存 器 A 

寄存 器 B 的 控制 信号 

禁用 寄存 器 B 

使 能 寄存 器 B 进行 右 移 

使 能 寄存 器 B 进行 右 移 

未 使 用 

寄存 器 的 控制 信号 

禁用 寄存 器 了 

使 能 寄存 器 P 进行 并 行 加 载 

使 能 寄存 器 P 进行 右 移 

使 能 并 同步 清 零 寄 存 器 了 


控制 信号 


f 


pe 
=> 
-一 人 
ne) 
O 


© 
oj=|9 


禁用 计数 天 

使 能 计数 需 进 行 增 量 计数 
未 使 用 

使 能 并 同步 清 零 计数 器 


图 6-17 表示 了 无 符号 乘法 电路 的 详细 框图 。 外 部 的 触发 信号 start 由 一 个 同步 的 触发 器 
(FF1 ) 输出 而 得 ， 由 它 启 动 这 个 乘法 器 的 控制 单元 。 信 号 done (Mealy) 在 计算 结束 的 时 候 
被 插入 ， 并 被 作为 done moore 保存 在 另 一 个 触发 器 (FF2 ) 中 。 如 果 _reset=0 M done = 1， 
FF1 HEM, WR _reset = 0 或 start asyn = 1，FF2 被 复位 。 


A value B_value 





同步 触发 器 
start_asyn_J L 


无 符号 乘法 器 
数据 通路 
(图 6-16 ) 


无 符号 乘法 器 
控制 单元 


done_moore 





图 6-17 无 符号 乘法 器 框图 、 控 制 信号 和 接口 信号 
图 6-18 表示 了 乘法 需 控 制 单元 的 有 限 状 态 图 ， 并 带 有 由 RTN 表示 的 数据 通路 操作 。 有 
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限 状态 图 由 标识 为 Itle、Check 和 Add 的 三 种 状态 组 成 。 如 有 限 状 态 图 所 示 ， 复 位 后 ， 控 制 
单元 初始 化 到 Idle 状态 。 一 旦 进入 Idle 状态 ， 控 制 单元 便 监视 start 信号 ， 直 到 信号 变 为 1， 
并 开始 触发 乘 A_value 和 B_value 的 控制 单元 ， 即 按 之 前 讨论 过 的 无 符号 乘法 算法 进行 。 


CNTR<nandb0=0/ 


start=1/ P//B + PWB >> 1, CNTR < nand b0=1/ 
A < A_value, CNTR & CNTR+1, P< P[7:0] +A, 

Be B_value, done = 0; done = 0; 

P <0, 





start = 0 / done = 0 





CNTR < 0; 






CNTR=n/done=1; sa 
P//B — P//B>> 1, 
CNTR & CNTR +1, 
“一 ”表示 输入 不 关心 done=0; 


图 6-18 无 符号 乘法 器 控制 器 的 有 限 状 态 图 ; 只 包含 了 非 零 的 加 数 


3. HDL 模型 

乘法 器 的 全 结构 式 的 和 混合 式 的 设计 都 被 推迟 到 了 练习 部 分 。 然 而 ， 使 用 明确 声明 的 控 
制 信号 的 设计 实例 在 第 6.5.2 节 中 。 接 下 来 是 图 6-17 中 无 符号 乘法 器 和 它 的 接口 模块 的 全 行 
为 式 〈 选 择 亚 ) 的 HDL 代码 。HDL 代码 建 模 的 图 6-18 中 有 限 状 态 图 带 有 未 明确 声明 的 数据 
通路 的 控制 信和 号。 特别 地 ， 代 码 中 描述 了 一 个 带 有 NSG、OG 和 一 系列 触发 器 的 FSM。OG 
负责 产生 由 RTN 隐 式 指定 的 数据 通路 的 控制 信号 。 因 此 ， 全 行为 式 的 OG 将 使 用 RIN 建 模 
出 带 有 隐 式 控制 信号 的 乘法 器 数据 通路 。 

HRA 下 面 描述 了 图 6-17 中 无 符号 乘法 器 和 它 的 接口 模块 的 Verilog 行为 建 模 。 描 
述 中 使 用 了 未 明确 声明 的 数据 通路 的 控制 信号。 

解 : 这 个 乘法 器 完全 是 由 图 6-18 中 通过 RTN 给 出 的 数据 通路 操作 的 有 限 状 态 图 的 指定 
性 描述 。 

module interface unit ( 


input clock, _reset, start_asyn, done, 
output reg start, done_moore 


//-------------- synchronization flip-flop -------------- 
always@(posedge clock or negedge _reset or posedge done) 
begin 
if( reset = 0 || done = 1) 
start <= 1'b0; 
else 
start <= start_asyn; 


//------- Convert a Mealy output to a Moore output ------- 
always@(posedge clock or negedge reset or posedge start_asyn) 
begin 
if(_reset = 0 || start asyn = 1) 
done_moore = 1'b0; 
else 
if (done = 1) 
done _ moore <= done; 
end 


MAP CB: AB Rit 


//----------------- Unsigned Multiplier ----------------- 
//A Mealy controller FSM 
module umult ( 
input clock, reset, start, 
input [7:0] a_value, b value, 
output [15:0] result, 
output reg done 
) ; 
reg [8:0] p; 
reg [7:0] a, b; 
reg [3:0] cntr; //mod-16 counter 
reg co; 
reg [7:0] sum; 
reg [1:0] current_state, next_state; 
assign result = {p[7:0], b}; 


//--------------------- The states -----------=--------- 
parameter Idle = 2'b00, 
Check = 2'501, 
Add = 2'b10; 
[*----------------- Output Generator (OG) ----------------- 


The OG module defines the data path and also implicitly defines 
the data path control signals using a behavior description*/ 
always@(posedge clock or negedge _reset) 

begin 


if(! reset) 
begin 


p <= 0; 
cntr <= 0; 
end 
else 
case(current_state) 
Idle: if(start = 1) 
begin // initialize 
a <= a_value; 
b <= b value; 
p <= 0; 
cntr <= 0; 
end 
Check: begin 
if (centr < 8) 
if(b[0] = 1) 


p <= {co, sum}; //or p <= p[7:0] + a; //without delay 


else 
begin 
{p, b} <= {p, b} >> 1; 
Cntr <= cntr + i; 
end 
end 
Add:begin 


{p, b} <= {p, b} >> 1; 
Cntr <= cntr + i; 
end 
endcase 


end 


--------------- Next State Generator (NSG) -------------- 


always@(current_state or cntr or start or b[0]) 
begin 


case (current_state) 
Idle:begin 
done = 0; 
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if (start = 1) 
next_state = Check; 
else 
next_state = Idle; 
end 
Check: if(cntr < 8) 
begin 
done = 0; 
if (b[0] = 0) 
next_state = Check; 
else 
next_state = Add; 


end 
else 
begin 
done = 1; 
next_state = Idle; 
end 


Add: begin 
done = 0; 
next_state = Check; 


end 
default :begin 
done = 0; 
next_state = Idle; 
end 
endcase 
end 
| [/-------------------- The flip-flops -------------------- 
always@(posedge clock or negedge reset) //state transitions 
begin 
if (! reset) 


current state <= Idle; 
else 

current state <= next state; 
end 


//adder with delay 

always@(p or a) 

begin 

//assume 10ns delay for the adder 
#10 {co, sum} = p[7:0] + a; 

end 

endmodule 


4. 仿真 | | 

乘法 器 和 它 的 接口 模块 通过 Altera Quartus Il #1 Altera ModelSim 10.1b 进行 了 综合 和 仿 
真 。 这 个 工具 还 提供 了 一 个 state machine viewer 的 验证 功能 ， 它 可 以 通过 给 出 的 Verilog 描 
述 重建 出 有 限 状 态 图 。 图 6-19 表示 了 重建 的 例 6-2 中 Verilog 所 描述 乘法 器 控制 单元 的 有 限 
状态 图 。 

例 6-3 是 带 有 两 个 测试 向 量 的 测试 平台 。 图 6-20 中 表示 了 相关 的 仿真 时 序 图 。 注 
意 ， 由 于 该 算法 跳 过 为 零 的 加 法 ， 乘法 器 计算 B_value = 8'h7F R A_value = 8’h03 比 计算 
B_value = 8°h03 乘 4_value = 8'h7F 花费 更 长 的 时 间 ， 因 为 B_ value = 8'h7F 中 有 7 个 1, 而 
B_value = 8h03 中 只 有 两 个 1。 男 外 ， 乘 法 器 可 以 被 设计 成 带 有 一 个 比较 器 ， 如 果 A_value 
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中 1 的 个 数 更 少 ， 就 交换 操作 数 A_value 和 B_value 的 值 。 243 
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6-20 图 6-17 中 乘法 器 的 仿真 输出 ， 使 用 了 例 6-3 中 的 测试 台 


这 里 描述 了 带 有 两 个 测试 用 例 8'h03 x 8°b7F 和 7°h7F x 8°hO3 的 HDL 测试 


Fhe 


module tester (); 


reg clock, reset, start_asyn; 


reg [7:0] a_value, b value; 


wire [15:0] result; 
wire done, done _ moore, 


start; 


interface ul(clock, _reset, start_asyn, done, start, done moore) ; 


umult u2(clock, _reset, 


initial begin 
clock = 1; 


#10 forever #10 clock = 


end 


start, a_value, b value, result, done); 


~clock; //20ns clock period 
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initial begin 

_reset = 0; 

start_asyn = 0; 

#15 reset = 1; 

#10 start_asyn = 1; a value = 8’'h03; b value = 8’h7F; 
#40 start_asyn = 0; 


#400 start_asyn = 1; a_value = 8’h7F; b value = 8'h03; 
#40 start_asyn = 0; 


#1000 S$finish; 
end 
initial 
Smonitor($stime,, _reset,, start_asyn,, clock,,, result,, done_ 


moore) ; 
endmodule E 


6.5.2 WAS PIT Riz R 


2 的 补 码 乘法 算法 ， 被 普遍 称 为 Booth 算法 ， 使 用 加 法 和 减法 去 乘 两 个 2 的 补 码 的 正 数 
或 负数 。 它 的 数据 通路 和 之 前 讨论 过 的 带 三 个 寄存 器 A、B 和 了 的 无 符号 乘法 相似 。A 的 2 
的 补 码 被 乘 数 A_value 和 一 个 二 进 制 补 码 的 乘 数 B_value 分 别 被 加 载 到 A M B 寄存 器 中 ， 最 
终 的 结果 要 从 P 和 B 寄存 器 中 被 读 出 。 

在 Booth 算法 中 ,一 系列 的 1, 例如 三 个 1 或 者 (111),， 被 表示 为 (001z; 其 中 1 在 这 
里 表示 - 1, (111)2 和 (10071); 都 表示 十 进 制 中 的 7; (111),=4+2+1 是 7， 所 以 (1001),=8 
- 1。 这 种 解释 是 由 仅 两 部 分 和 的 计算 取代 了 需要 典型 4_value FET 的 三 部 分 和 的 计算 : F 
列 的 开始 是 减法 ， 序 列 的 结束 是 加 法 。 中 间 的 1 将 被 翻译 为 0， 并 被 跳 过 。 

这 是 通过 检查 值 {B value, 0} ( 即 B_value 与 0 拼接 ) 实现 的 ， 从 它 的 LSB 开始， 一 次 
AMBEERR, EHTK 6-8 中 指定 的 方式 去 用 B_value 乘 A_value, 


表 6-8 Booth 乘法 器 的 位 解释 


bo pee | 含义 
0 | 跳 过 : 0 的 序列 ; {P, B} < {P, B} >>> 1. 
0 ”1 ”| 加 : 意味 1 序列 的 结束 ; PP +A. 
1 = 0 | W: 意味 1 序列 的 开始 ; PP-A. 
1 | 1 ”| ” 跳 过 : 1 序列 被 解释 为 0; {P,B} {P, B} >>> 1. 
>>> 表示 带 符号 扩展 的 算术 右 移 | | 
1. 数据 通路 


图 6-21 表示 了 Booth 乘法 器 的 数据 通路 。x 和 bi 信号 被 控制 单元 使 用 。 如 果 x = 0， 寄 
存 器 P 和 B (表示 为 {PF，B}) 同时 算术 右 移 ,保存 了 的 LSB 在 B 中 。 如 果 x= 1, bi=0， 
A_value 的 值 加 到 了 的 值 上 ; 否则 ， 就 从 P 的 值 中 减 去 4_value。 无 符号 乘法 器 中 的 组 合 电 
路 (CC) 将 计数 器 的 输出 转换 为 信号 flag. WR count =n, flag=1, AM, fiag = 0。 

除了 n+ 1 位 的 B 寄存 器 ，A 和 P 寄存 器 也 都 是 n+ 1 位 的 ， 所 以 乘法 器 电路 可 处 理 的 
最 大 数量 级 是 n 位 的 2 的 补 码 的 负数 。 例 如 ，A_value = -8 或 者 说 (1000)zs 是 最 小 的 4 位 
的 2 的 补 码 负数 ，P 的 值 是 0 ( 即 P_value = 0)。P_value - A_value 的 值 应 该 是 +8， 现 在 ， 
这 个 值 将 被 错误 地 翻译 为 4 位 的 (1000);;,， 这 是 4 位 的 2 的 补 码 -8 的 表示 。 因 此 ,让 A 
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Al P 都 用 5 位 的 寄存 器 就 能 解决 这 个 问题 。5 位 的 -8 HAW (11000), WE A 寄存 器 中 ， 
(00000) 2, — (11000) 2, 表示 为 (01000) ss = +8， 正 确 地 存在 P 寄存 器 中 。 


B_value[n-1..0] A_value[n-1..0] 
0 4 






Sum/Diff 


6-21 #47 Booth 乘法 器 的 数据 通路 


B 寄存 器 中 存储 n+ 1 位 的 值 {B_value, 0}。 假 设 4 位 的 B value = (1111) ss = -1。 注 意 
A_valuexB value A ti A_value x -1 的 结果 应 该 是 -4 value, HP A value 是 一 个 任意 
的 4 位 的 2 的 补 码 数 。 起 初 ， 如 在 数据 通路 时 介绍 的 那样 ，B_value 将 存在 5 位 的 B 寄存 器 
中 表示 为 (11110)s,， 其 中 有 它 的 两 位 LSB 位 bibo = (10),。 使 用 表 6-8 中 的 规则 ， 如 果 bibo = 
(102, ABABA 0 的 P 寄存 器 的 值 将 变 为 0 -= 4_value = -4_value。 然 后 ，{P, B} 将 进行 
算术 右 移 ， 并 复制 P 的 符号 位 ， 符 号 位 现在 为 1。 因为 B 寄存 器 剩余 的 位 都 是 1，{P, B 将 
算术 右 移 4 次 ， 每 次 都 重复 P 的 符号 位 。 这 将 在 {P, -1.0, Bia} 中 产生 最 终 的 正确 结果 -4_ 
value， 是 一 个 2n 位 的 2 的 补 码 负 数 。 表 6-9 描述 了 使 用 图 6-21 中 数据 通路 并 且 n = 4 时 
的 -8 x -5 的 过 程 。 这 个 结果 是 40 = (0010, 1000) = 8’h28。 


表 6-9 4 位 的 Booth 乘法 示例 : A_value = - 8 = (1000).,, B_value = — 5 = (1011)zs 


masen | P | 6B | A = = 
o | 00000 | oo | 1,100 | mee 


0101,1 | 1,1000 | {P, B} >>> 1 H CNTR++; 

‘ eee Sere eee: bibo= 11， 移 位 
| tt | 1100 | (P, B} >>> 1 H CNTR++ 
a a kh o bibo = 01, Hi, load, and shift 
mo: | ooo. | 1,1000 | (P, B} >>> 1 H CNTR++ 
meee eee N bibo= 10， 减 、 加 载 和 移 位 

4 00101 | 0001,0 | 1,1000 PP-A 
0010 | 10000 | 1,1000 | (P, B} >>> 1 H CNTR; 


2. 乘法 器 算法 : 微 程序 
假设 图 6-17 中 接口 模块 也 用 来 产生 两 个 接口 信号 start Al done, XR 6-10 列 出 了 控制 
图 6-21 中 带 符号 乘法 器 的 微 程序 。 
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R 6-10 ”控制 图 6-21 中 带 符号 乘法 器 数据 通路 的 微 程 序 


地 址 备注 


(= 


和 


CM 地 址 






If start == 0 go to 0; 等 待 开 始 
P — 0, A — A_value, B+- B_value, CNTR 二 0; | 初始 化 





nT 
If x == 0 go to 5 如 果 bibo = 00 BK 11 时 跳 过 
计算 并 加 载 部 分 和 ， 如 果 by = 0 用 加 法 ， 如 果 by = 1 用 减法 
{P, B} >>> 1, CNTR + CNTR + 1, go to 2; 更 新 P、B 和 CNTR ， 然 后 重复 
结束 ， 转 到 0 


3. 控制 单元 设计 : 微 程 序 
图 6-22 Han STA SFE AE Re Hl oc. ARLE “if start == 0”, “if CNTR == 


“ifx == 0” 分 别 对 应 条 件 代 码 2、3 和 4。 微 程序 计数 器 (MPC) 在 load = 1 时 加 载 跳 变 
地 址 (azaiao )， 或 者 load = 0 时 让 它 的 值 增加 。 表 6-11 列 出 了 微 程序 的 微 代 码 。 





微 程序 计数 器 (MPC ) 


地 址 







控制 内 存 (CM) 
( 一 段 微 程序 ) 








Data 






a2ala0 


cf1, cfO, pf1, pf0, bf1, bfo, af, done 
6-22 ”图 6-21 中 Booth 乘法 器 数据 通路 的 微 程序 控制 单元 


表 6-11 表 6-10 中 微 程序 的 微 代码 


十 六 进 抽 

Pace | ace [oe | wo [at [aoe | am 4 Bis) 
o | oo | o | œ | om | o | o | | lo 
! ow TI ET EE EE CE 7 07B0 
2 | | wœ | o | om | o f o | mo | 1806 
| 
a | oo | 上 
es OS TO ae I 0B42 
s | om | o | om | o | o | ı | om | oss 


d 代 表 了 不 关心 ,产生 十 六 进 制 数值 时 用 0 替代 


4. HDL 模型 
例 6-4 描述 了 图 6-22 中 的 微 程序 控制 单元 和 图 6-21 中 带 有 明确 指定 的 控制 信号 的 数据 
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通路 。 数 据 通 路 的 描述 包括 了 CM 的 初始 化 。 
下 面 表示 了 使 用 HDL 结构 和 行 
建 模 。 
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为 描述 的 2 的 补 码 Booth 乘法 器 的 Verilog 


解 : 假设 使 用 图 6-17 中 的 接口 去 连接 控制 单元 。 


module smult ( 
input clock, reset, start, 
input [7:0] a_value, b value, 
output [15:0] result, 
output done 

) ; 

wire flag, x; 

wire [13:0] control; 


controller u2(clock, reset, start, 
data path u3(clock, _reset, 
result); 


endmodule 


module controller ( 
input clock, _reset, start, flag, x, 
output reg[6:0] control, 
output reg done 


i 


reg [2:0] mpc; //control memory 
(* ramstyle = 


flag, x, control, done); 
a_value, b value, control, flag, x, 


"M512" *) reg [13:0] cm[0:7]; //control memory, using 


//a built-in memory 


//reg [0:7] [13:0] cm; 
reg [2:0] ccode; //branch type 
reg [2:0] jump_address; //branch address 


reg load; 
//------ Initialize the CM, ---------- 
initial begin 
cm[0] = 14'h1000; //wait for start = 1 
cm[1] = 14'hO7B0; //initialize 
cm[2] = 14'h1806; //if flag = 1 then goto 6 
eml3] = 14'h2005; //if x = 0 then goto 5 
cm[4] = 14'h0080; //p <- sum diff 
cm[5] = 14'h0OB42; //p//b <= p//b >>> 1, cntr++, goto 2 
cm[6] = 14'h0808; //done = 1, goto 0 
end 
//--------- MUX ----------- 
always@ (*) 
begin 
case (ccode) 
0: load = 0; //next instruction 


1: load = 1; //unconditional jump 
2: if (start 


0) //conditional jump if start = 0 


00 or 11 


load = 1; 

else 
load = 0; 

3: if (flag = 1) //conditional jump if done 
load = 1; 

else 
load = 0; 

4: if (x = 0) //conditional jump if b[1]b[0] = 
load = 1; 


else 
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load = 0; 
default: load = 1; 
endcase 

end 


//--------------->- MPC = 
always@(posedge clock or negedge reset) 
begin 
if (_reset 一 0) 
mpc <= 3'b000; 
else 
if (load = 0) 
mpc <= mpc + 1; 
else 
mpc <= jump address; 


always@ (*) 

begin 
ccode = cm[mpc] [13:11] ; 
control = cm[mpc] [10:4]; 
done = cm[mpc] [3] ; 
jump_address = cm[mpc] [2:0]; 

end 

endmodule 


module data path ( 
input clock, reset, 
input [7:0] a_value, b value, 
input [6:0] control, 
output reg flag, 
output x, 
output [15:0] result 


reg [8:0] a, b; 

reg [8:0] p; 

reg [3:0] cntr; //mod-16 counter 
reg [8:0] sum_diff; 


wire af = control[0]; 

wire [1:0] CF control [6:5], 
PF = control [4:3], 
BF = control [2:1]; 

assign result = {p[7:0], b[8:1]}; 

assign x = b[1] ^ b[0]; 


always@(posedge clock or negedge reset) //registers and cntr 


begin 
if ( reset = 0) 
begin 
a <= 0; 
b <= 0; 
p <= 0; 
centr <= 0; 
end 
else 
begin 
if (af = 1) 


a <= {a value[7], a_value}; //a[8] is set to the sign bit 
(a[7]) 


OF 





a Ag 


case (BF) 
2'b01: b <= {b value, 1'b0}; 
2'b10: b <= {p[0], b[8:1]}; //shift right with left input 
2'b11: b <= 9'h000; //clear 
default: b <= b; 

endcase 

case (PF) 
2'b01: p <= sum_diff; //load 
2'b10: p <= {p[8], p[8:1]}; //arithmetic right shift 
2'b11: p <= 9'h000; //clear 
default: p <= p; 

endcase 

case (CF) 
2'b01: cntr <= cntr + 1; //increment 
2'b10: cntr <= cntr; //not used, retain 
2'b11: cntr <= 3’b000; //clear 
default: cntr <= cntr; 

endcase 

end 

end 


always@ (*) 
begin 
if (b[1] = 1'b0) 
sum_diff = p + a; 
else 
sum diff = p - a; 
end 


always@(*) //condition flag 


begin 
if (cntr < 8) 
flag = 1'b0; 
else 
flag = 1'b1; 
end 
endmodule 


module interface_unit ( 

input clock, _reset, start_asyn, done, 

output reg start, done_moore 

) ; 

//synchronization flip-flop 

always@(posedge clock or negedge reset or posedge done) 


begin 
if( reset = 0 || done = 1) 
start <= 1’b0; 
else 
start <= start_asyn; 
end 


//Moore output 
always@(posedge clock or negedge reset or posedge start_asyn) 


begin 
if( reset = 0 || start_asyn = 1) 
done_moore = 1’b0; 
else 


if (done == 1) 
done_moore <= done; 
end 
endmodule 
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5. 仿真 
例 6-5 描述 了 带 符号 乘法 器 的 测试 平台 。 图 6-23 表示 了 解释 -8 乘 -5 的 仿真 时 序 图 。 


结 采 是 十 进 制 的 40。 


| 台 到 人 || 世 点 让 避让 交友 玫 





图 6-23 -5 乘 -8 的 仿真 输出 


下 面 描述 了 计算 -8x-5 或 者 十 六 进 制 的 0xF8x0xFB 或 者 Verilog 中 的 


8°hF8 x 8”hFB 的 测试 平台 。 假 设 使 用 图 6-17 中 的 接口 模块 去 连接 控制 单元 。 


module tester(); 

reg clock, reset, start_asyn; 

reg [7:0] a_value, b value; 

wire [15:0] result; 

wire done, done moore, start, flag, x; 
wire [6:0] control; 


interface unit ul (clock, _reset, start_asyn, done, start, 
done_moore) ; 

smult u2 (clock, _reset, start, a_value, b value,result, 
done) ; 


initial begin 
clock = 1; 
_reset = 0; 
end 


always #10 clock = ~clock; //20ns clock period 


initial begin 
start_asyn = 0; 
#15 reset =1 
#10 start_asyn = 1; a_value = 8'hF8; b value = 8'hFB; 
#40 start_asyn = 0; 


p a 


#1000 Sfinish; 
end 


initial begin 

Smonitor($stime, reset, start_asyn, clock, result, done moore) ; 
end 
endmodule 
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6.5.3 计算 机 图 形 学 : 旋转 


在 计算 机 图 形 学 中 ， 一 个 虚拟 对 象 被 定义 为 笛 卡 儿 坐 标 中 的 几 个 点 。 例 如 ， 图 6-24 中 
所 示 ， 一 个 二 维 的 虚拟 对 象 “房子 ”被 它 的 $ 个 点 所 表示 ， 分 别 被 记 为 x -7 坐标 系统 中 的 
a 到 e。 每 个 点 都 被 视 为 从 原点 (0, 0 ) 到 坐标 (X, Y) 的 一 个 向 量 。 这 些 向 量 a 到 e 的 坐标 
分 别 是 (10,10), (10,20), (15, 30), (20,20) 和 (20, 10 )。 


(-10.64, 19.66) 
b’ 7 eenceeccees 20. 





图 6-24 包括 5 个 X-yY 坐 标点 的 二 维 虚 拟 对 象 。 也 表示 了 一 个 向 量 bkt 55° 后 的 新 向 量 b 


为 了 让 “房子 ”旋转 55 度 (55°)， 我 们 必须 和 4b 一样 将 图 中 每 个 向 量 都 旋转 55°*。 旋 转 是 
一 个 坐标 (了 ) 经 过 一 个 旋转 角 B 到 一 个 新 坐标 (了 Y, 了 ) 的 线性 变化 。 对 于 一 个 正 的 了 BB， 旋转 
是 顺 时 针 方向 ， 如 果 B 是 负 的 ， 它 就 是 逆 时 针 方向 。 公 式 〈6-14 ) 表示 了 二 维 旋转 的 表达 式 。 
X’ = cosB * X — sinB * Y 
Y' = sinB * X — cosB * Y 
在 这 个 图 中 ， 从 坐标 原点 (0,0) 到 CX, Y) = (10, 10) 的 向 量 b 转 换 到 从 坐标 原点 (0， 
0) 到 (XY, Y) = ( 10.64, 19.66 ) 的 向 量 bs ASK (6-15) 给 出 了 这 种 转换 的 计算 。 
X” = cos55° * 10 - sin55° * 20 
= — 10. 64 
Y = sin55° * 10 - cos55° * 20 
= 19. 66 


(6-14 ) 


(6-15) 


1. CORDIC 算法 

CORDIC 算法 可 以 用 来 执行 三 角 、 双 曲线 、 对 数 、 指 数 、 平 方 根 等 功能 。CORDIC 
算法 可 用 于 袖珍 计算 器 和 2D/3D 图 形 处 理 器 的 设计 。 此 外 ， 已 经 证 实 可 以 开发 出 简单 的 
CORDIC 算法 ， 这 是 一 种 迭代 算法 ， 仪 需要 简单 的 功能 ， 比 如 整数 加 法 、 减 法 和 算术 右 移 
[7]。 右 移 用 来 表示 整数 除 以 2、4、8 等 。 下 一 步 将 介绍 迭 代 CORDIC 算法 可 以 用 来 计算 线 
性 变换 (公式 ( 6-14 ) )。 也 表示 简单 图 形 处 理 器 的 数据 通路 的 设计 。 
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公式 (6-14) 中 的 表达 式 需 要 复杂 的 cosine 和 sine 函数 。 然 而 ， 如 公式 (6-16) 所 示 ， 
它们 可 以 通过 分 解 两 个 表达 式 中 的 cos B 得 到 简化 。 你 将 会 知道 ， 线 性 变换 所 需 的 计算 tan B 
和 保持 cos B 从 计算 中 分 离 会 更 容易 一 些 。 然 而 ，cos B 的 结果 将 被 用 作 一 个 比例 因子 来 调 
整 每 个 新 产生 的 坐标 点 。 
X' = cosB * (X — tanB * Y) 
Y = cosB * (tanB * X + Y) 
这 种 简单 的 迭代 算法 只 使 用 一 组 固定 旋转 角 的 正切 值 。 表 6-12 列 出 了 7 个 角度 ，45?、 
27*、14°、7° 等 ， 正 切 值 分 别 等 于 1、1/2、1/4、1/8 等 。 对 于 整数 运算 ， 表 中 的 每 个 角度 都 
被 凑 为 最 近 的 整数 。 


(6-16 ) 


表 6-12 7 个 tanB 值 和 与 它们 相应 的 8 近似 值 


3 1/8 J 


一 个 向 量 ， 如 图 6-24 中 的 b， 可 以 通过 4 步 完成 旋转 角度 B = 55°, 第 1 步 旋转 向 量 
45"， 然 后 是 7"， 然 后 是 2"， 最 后 是 1°, WAA (6-17) 所 示 。 第 4 步 中 的 结果 包含 比例 因 
于 0.701 = cos 1° * cos 2° * cos 7° * cos 45°。 除 去 比例 因子 , (8 X = -15.1 M Y = 28.1 在 常 
数 1.427 (1/0.701) 下 是 最 大 的 。 不 包含 这 个 得 到 的 1.427 的 大 和 也 最终 值 在 第 5 步 给 出 。 
这 些 值 与 公式 〈6-15 ) 中 得 到 的 那些 值 间 的 一 点 不 同 是 由 人 工 计算 伴随 的 伟人 误差 引起 的 。 
第 1 &:X' = cos45° * (10 -1*20) //(tan45° = 1) 
cos45° * ( — 10) 

Y' = cos45° * (1 * 10 + 20) 
= cos45° * (30) 
2 F :X' = cos7° * cos45° * (— 10 - 1/8 *30) //(tan7° = 1/8) 
= cos7° * cos45° * ( — 13.75) 
Y' = cos7° * cos45° * (1/8 * -— 10 +30) 
= cos7° * cos45° x (28. 75) | 
第 3 %:X' = cos2° * cos7° * cos45° * ( — 13. 75 — 1/32 x 28.75) //(tan2° = 1/32) 
= cos2° * cos7° * cos45° * ( — 14. 65) | 
Y = cos2° * cos7° * cos45° * (1/32 * — 13.75 + 28.75) 
= cos2° * cos7° * cos45° * (28. 32) 
第 4 步 :X'= cosl° * cos2° * cos7° * cos45° + ( — 14.65 - 1/64 * 28.32) //(tan1° = 1/64) 
= cosl1° * cos2° * cos7° * cos45° x ( — 15.1) 
Y' = cosl1° * cos2° * cos7° * cos45° * (1/64 * — 14.65 + 28. 32) 


= cos1° * cos2° * cos7° * cos45° * (28. 1) 
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第 5 步 :8 = 0.701*(-15.1) 
= — 10.59 ~- 10. 54( Eq. (6. 15) ) 
Y' = 0.701 * (28.1) 
= 19.7 ~ 19. 66( Eq. (6. 15) ) 
(6-17 ) 
尽管 这 个 示例 说 明了 迭代 过 程 可 以 消除 任意 角 的 正切 值 计 算 的 需要 ， 如 55°， 对 于 一 个 
简单 图 形 的 数据 通路 ， 存 在 一 些 实现 的 复杂 性 ， 如 下 : 
o 如 何 选 择 表 6-12 中 的 下 一 个 Bb; 值 。 
o 何 时 结束 计算 。 
e 对 于 一 个 给 定 的 旋转 角 应 该 使 用 什么 比例 因子 。 
一 个 解决 所 有 这 些 实现 复杂 性 问题 的 方案 是 使 用 固定 数量 的 步骤 ,与 目标 旋转 角度 无 关 
[7]。 如 果 之 前 步骤 的 结果 出 现 了 超出 ， 对 相反 方向 旋转 的 需要 是 有 必要 的 。 比 如 ， 向 量 旋转 [256 
55° 需要 使 用 45°, 27°, -14°, -7°, 4°, 2°M-1° 七 个 步骤 。 而 且 ， 对 于 所 有 的 目标 旋转 角 
度 仅 需要 一 个 比例 因子 = 0.6048 (公式 ( 6-18 ) )。 注 意 ， 因 为 cos pi = cos- 8， 这 个 仅 有 的 比 
例 因子 不 受 旋 转 方向 的 影响 。 步 又 越 多 ， 比 例 因 子 越 趋 近 于 步骤 为 无 穷 大 时 的 最 大 值 0.607。 
0.6048 = cos1° * cos2° * cos4° * cos7° * cos14° * cos27° * cos45° (6-18 ) 
对 于 一 个 简单 图 形 的 数据 通路 ， 算 法 的 每 一 步 都 需要 整数 运算 。 公 式 (6-17) 中 每 一 个 
结果 ，1/8 X、1/32 X 等 都 由 算术 右 移 得 到 。 例 如 ，1/8 * 10 的 值 ， 如 果 转 换 为 最 近 的 整数 ， 
ETAB 3 次 后 的 10 = (01010),， 如 下 介绍 。 算 术 右 移 用 于 处 理 正 的 和 人 负 的 坐标 值 。 
1/8 *10= (01010),,/8 
= (01010),, >> > 3( > > > 表示 一 个 算术 右 移 运 算 符 ) 
= | 


1/8 « -10= (10110),,/8 
= 《I + 222 
= (11110),, 


下 面 描述 在 -90° 和 +90° 之 间 的 B 值 的 旋转 迭代 算法 (EIB < |90°%|)。 最 终 的 新 坐标 值 
由 公式 (6-19) 中 的 两 个 表达 式 决定 。 
B < |90°| 的 迭代 旋转 算法 
Ag = A 
year 
Bo = B 
Ay =1; 
d,=+1ifB, =>0, Xdi=- 1 if B, < 0 
caf A Re. SS Sa 
fia 6&2, > oS 0) + 2, 
Bua = B,—d,*tan 2” //(#6-12) 
A.,, = A, * cos(tan7'2~*) 
for i= 0,1,2,*"k —1 257 
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A’ = A, ao X, 
Y SA. eT, 
A 的 值 是 一 个 比例 因子 ， 是 一 个 FP 数字 。 例 如 , k=7, A, = 0.6048。 因 此 ， 对 于 每 一 


(6-19 ) 


个 向 量 , —BERIABEIN DI (Xe Ye) 确定 了 ，X 入 都 分 别 与 常数 A FAR, APA 
最 新 的 坐标 点 (了 Y, 了 了 )。 这 就 需要 一 个 FP 乘 数 ， 因 此 它 将 由 CPUE., AA (6-20) RA 
T (Xin Yor) 当 i=0、1 和 2 时 的 计算 ,其 中 (Xo, Yo) = (10,20), po = 55°. X 6-137 
出 了 所 有 的 当 i=0、1 MOA X41. Vier MA 的 值 。 


Xx, 


Ni wi > | wl] hd 


mr re [santas [=r 
pram EE EE [=] een EE TE 
azosi 
roce forna forea) 
E77 


= cos45° {10 (1) (20 > > 3 0) =1 7/55° = 45" = 10° 
= 0. 7071 * (10 - 20) 
0. 7071 * (— 10) 
cos45° * ((1)(10 > > > 0) +20) 
= 0. 7071 * (10 + 20) 
= 0. 7071 * (30) 
= cos27°* cos45° «( —- 10 -= (1)(30 > >>1)),d = /OP =- 27° == 17°” 
= 0. 8910 «0. 7071 * (- 10 - 15) 
= 0. 6300 * ( - 25) 
= cos27° * cos45° * ((1)(10 > > > 1) +30) ( 6-20 ) 
= 0. 6300 * ( - 5 +30) 
= 0. 6300 * cos45° * (25) 
= cos(—14°) * cos27° * cos45° * (25 — (-1))(25 > > >2),d =-1 
// — 17° - (-14°) =- 13° 
= 0.6113 * (-25 +6) 
= 0.6113 «(= 19) 
= cos( — 14°) * cos27° * cos45° * ((-—1)(-25 > >>2) +25) 
= 0.6113 * (7 + 25) 
= 0.6113 (32) 


表 6-13 描述 图 6-24 中 旋转 55° MHRA (10, 20) 的 向 量 b 所 得 的 中 间 结 果 


moo Xen | v [a] a | awen | aney 


10° = 55° -45° |-10=10 -20 30=10+20| 1 0.7071 |10- (1) (20 >>> 0) |(1) (10 >>> 0) + 20 


-17° = 10° = 27° |-25=-10-15 |25=5+30 | 1| 0.6300 |-10-(1) (30>>>1) | (1) (-10 >>> 1) + 30 
0.6113 |-25 - (-1) (25 >>> 2) | (-1) (-25 >>> 2) + 25 


0.6053 |-15 - (1) (35 >>> 4) | (1) (-15 >>> 4) +35 
= 0.6049 |-17 - (1) (34 >>> 5) |(1) (-17 >>> 5) + 34 
-1°=-2°+1° |-18=-18+0 |34=1+33 El 0.6048 |-18 - (- 1) (33 >>> 6) | (-1) (-18 >>> 6) + 33 


在 第 7 步 最 后 转换 的 坐标 点 是 (X, Y) = (-18, 34 )， 包 括 得 到 的 1/A,= 1.427. RY 


坐标 点 CX’, 了) 由 页 、 矿 分别 乘 以 Ay = 0.6048 得 到 ， 如 下 所 示 : 
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X' = 0. 6048 « (— 18) 
= — 10. 88 
Y' = 0. 6048 * (34) 
= 20. 56 
公式 (6-21) P X = -10.88 Al Y’ = 20.56 的 值 和 公式 (6-15 ) 中 得 到 的 -10.64 和 19.6 
稍 有 不 同 ， 这 是 由 整数 运算 引起 的 。 
对 于 旋转 角度 B > 190°|， 首 先 旋 转 + 90° BK +180° 是 有 必要 的 。 例 如 ，p = 125"， 先 旋 
转 90° 会 让 目标 旋转 角度 减少 到 35°, ER < 90°. FW cosine +90°=0, sine +90°= +1, 
最 初 的 上 90° WEF SHEAR AY XO. Yo 和 po 值 改变 如 下 : 
X,=-d*Y 
Y,= d*2i 
o=B-d*90 HH wRBSOd =1,KR4A,WKRB<Od=-1 
相对 地 ， 最 初 180。 的 旋转 将 减少 8 = 125° 的 值 为 -55° > -90°, RRR Xo, Yo M po tË 
改变 如 下 : 
xX,=-X 
Y,=-Y 
B, = B -d *180 其 中 ,如 果 B 宇 0 d = 1, 或 者 ,如 果 B <0d=-1 
对 于 BB>|180°| 和 |360°|, 最初 必要 的 + 360° 的 旋转 会 将 A 减少 到 < |180°|。 然 而 ， 这 
样 会 保持 原始 值 和 如 下 一 样 : 
X,=X 
Y,=Y 
Bo = B - d * 360 He wRB>SOd = 1, 或 者 ,如 果 B <0d=-1 
最 后 ， 对 于 BB>|360°|, 6 由 5 mod 360 蔡 代 。 即 
X% =X 
Y, = Y 
Bo = Bmod360 wR BS | 360° | 
如 下 所 示 的 伪 代 码 指定 旋转 一 个 给 定 角度 为 5 的 虚拟 对 象 所 需 的 步骤 。 
迭代 旋转 伪 代 码 : 


object transform(x[], yl], B, n, xU, yu) 
if B > |360| then 
B = B mod 360; 
endif 
if B > |180| then 
if B > 0 then 


B = B — 360; 


B = B + 360; 
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else 


endif 
d = i; 
if B > |90| then 
d = = 
if B > 0 then 


B = B — 180; 


B = B + 180; 


else 
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endif 
//Rotate n vectors 
for i= 0 to n-1l 
xO = d æ xfi? 
yO =da * y[i]; 
(x7, x7) = vector_transform(x0, yO, B); //-90° < B s 90° 
x’ [i] = 0.6048 * x7; //apply the scaling factor A7 


//= 0.6048 
y' [i] = 0.6048 * y7; 
endfor 
end 
vector_transform(x0, x0, BO) //use the Iterative Rotation 
Algorithm 
x = x0; 
y = yo; 
B = Bo 
I£ (B >= 0) 
d = 1; 
else 
d = -1; 
for (i = Of; 1 < 7, i++) 
kox- d* (y >>> i); 
yed t (x >> i) + y 
B=B-—d* LUT[i]; //Look-up table <tn>Table 6.12, 
//column 3 
endfor 
return(x, y); 
end 


2. 流水 线 数 据 通路 和 控制 

典型 地 ， 一 个 虚拟 对 象 包括 数 以 千 万 计 的 坐标 点 ， 当 这 个 对 象 要 被 旋转 一 定 角 度 时 所 有 
的 坐标 点 都 要 转换 到 一 个 新 的 坐标 点 。 流 水 线 数据 通路 实现 上 述 “ 向 量 转换 ”功能 中 给 出 的 
伪 代 码 可 以 在 短 时 间 其 至 实时 地 人 处 理 许多 向 量 。 一 个 非 流 水 线 数据 通路 ， 比 如 一 个 多 周期 数 
据 通路 ， 与 流水 线 数据 通路 比 起 来 表现 出 较 低 的 吞吐 量 ， 但 会 需要 较 少 的 硬件 。 

在 一 个 非 流水 线 数据 通路 中 ， 这 些 增 量 角度 必须 存在 一 个 查找 表 (LUT) 中 ， 它 们 将 每 
次 被 读 取 一 个 用 来 计算 下 一 步 的 旋转 角度 。 男 外 ， 非 流水 线 数据 通路 在 迭代 i 过 程 中 可 能 需 
要 使 用 组 合 移 位 电路 (第 3 章 介绍 过 ) EEM X: AY, MB. 

图 6-25 表示 了 一 个 实现 “向 量 转换 ”功能 的 七 阶段 的 流水 线 数据 通路 。 注 意 ， 
- 90° < £ < 90°。 每 一 个 流水 线 阶段 表现 出 7 个 坐标 转换 步骤 中 的 一 个 ， 并 由 表 6-13 中 的 
例子 表示 了 出来。 每 个 阶段 包含 三 个 2 的 补 码 加 法 器 /减法 器 模块 。 传 人 的 2 的 补 码 旋转 角 
BE (Bin) 的 符号 用 来 确定 方向 信号 d 的 值 ， 而 d 用 于 计算 下 个 阶段 所 需 的 旋转 角度 Bout 和 
新 的 坐标 值 Xout 和 Yout。 | 

每 个 阶段 也 需要 输入 Xin 和 Yin 算术 右 移 后 的 值 SXin 和 SYin。 注 意 在 流水 线 数据 通路 
中 ,没有 用 于 产生 值 SXin 和 SYin 的 电路 。 它 们 是 硬 布线 右 移 。 第 一 个 阶段 负责 将 最 初 的 坐 
标点 (Xin, Yin) 转换 45°; 第 二 个 阶段 负责 将 它 输入 的 坐标 点 转换 27°; 等 等 。 

3. HDL 模型 

例 6-6 中 的 HDL 代码 描述 了 图 6-25 中 的 流水 线 数 据 通路 。 表 6-12 中 的 第 3 列 指定 了 
这 7 个 旋转 角度 。 所 有 的 阶段 表现 出 一 样 的 功能 ， 因 此 仅 需 一 个 控制 信号 来 使 能 所 有 的 流水 
线 寄存 器 。 

这 里 表示 了 图 6-25 中 7 个 阶段 流水 线 数据 通路 的 HDL 行为 描述 。 
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旋转 角度 X Y 


Bin Xin i SXin SYin 
if Bin=0 then d = 1 else d= -1 
Bout = Bin — d * A Xout = Xin — d * SYin Yout = Yin + d * SXin 





: SXin SYin 
阶段 2: if Bin=0 then d = 1 else d=-1 


Bout = Bin- d * A Xout = Xin —d * SYin Yout = Yin +d * SXin 





>>> 2 
X2 Y2 


Bin A Xin Yin SXin SYin 
阶段 3: if Zin=0 then d = 1 elsed=-1 


Bout = Bin- d * A Xout = Xin — d * SYin Yout = Yin + d * SXin 





阶段 4 ~ 阶段 6 按 顺 序 实 施 
旋转 7、4 和 2 度 


Bin i i SXin SYin 
阶段 7: if Zin=0 then d = 1 else d = -1 
Bout = Bin- d * A Xout = Xin — d * SYin Yout = Yin + d * SXin 





新 转换 的 坐标 值 


Tt. kk 表示 了 /位 算术 右 移 
图 6-25 ”实现 二 维 线性 转换 的 七 阶段 流水 线 数据 通路 
解 : cordic 模块 是 结构 描述 ， 而 stage 和 register 模块 是 行为 描述 (即使 用 6.5.1 节 所 介 


绍 的 选择 工 来 设计 模块 )。 而 且 ， 为 了 简化 cordic 模块 的 描述 ，stage 模块 和 register 模块 是 
通过 使 用 它们 的 端口 名 字 被 实例 化 ， 而 不 是 它们 的 端口 位 置 。 
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module cordic ( 
input clock, reset, enable, 
input [7:0] xin, yin, 
input [7:0] degrees, 
output [7:0] cordxp, cordyp 


wire [7:0] b0, x0, y0, b0o, x00, y0o, sx00, sy0o; 
wire [7:0] bi, £i; Yi; bilo, x16, ylo,; sxio, syio; 
wire [7:0] b2; x2, v2, D20, X26, Y20, 8X26, syY¥20; 
wire [7:0] b3, x3, y3, b30, x30, y30, 5x30, sy30; 
wire [7:0] b4, x4, y4, b40, x40, y4o, sx40, sy4o; 
wire [7:0] 565, x5, v5, D50, x50, y5o, 8x50, BYSOS 
wire [7:0] b6, x6, y6, b60, x60, y60, sx60, sy60; 
wire [7:0] D7; X75 Y7: b70; x70, Yio, 6%70; BYTC:; 


assign b0 = degrees; //target rotation angle in degrees 
assign x0 = xin; //initial coordinate value X 

assign yO = yin; //initial coordinate value Y 

assign cordxp = x70; //final computed coordinate value X7 
assign cordyp = y7o; //final computed coordinate value Y7 


//Stage 1: atan(2*0) = 45 degrees ------------------------- 
stage s1 ( 
.b(b0O), .x(x0), .y(y0), .atan(8'd45), .sx(x0), .sy(y0), 
-bp(b1), .xp(xl), .yp(yi)); 
pregregisterli ( 
.enable (enable), 
.clock (clock), 
.reset (reset), 
~bin (oi), » xindxl), -yin (yl), 
Oxint{x1 [7], SLi ~syin({yl(7], yA}, 
.bout (blo), .xout (xlo), .yout (ylo), .sxout (sxlo), .syout (sylo) ) ; 


//Stage 2: atan(2*-1) = 27 degrees ------------------------ 
stage S2 ( 
.b(blo), .x(xlo), .y(ylo), .atan(8'd27), -sx(sxlo), .sy(sylo), 
sbp(b2), «*xp{x2), «yp(¥2)); 


pregregister2 ( 
.enable (enable), 
-Clogk{clock) 5 
.reset (reset), 
bpin{b2),- .xin (x2), «yin(y2), 
.sxin({{2{x2[7]}}, x2[7:2]}), .syin({{2{y2[7]}}, y2(7:2]}), 
.bout (b20) , .xout (x20), .yout (y20), .sxout (sx20), .syout (sy2o0) ) ; 


//Stage 3: atan(2*-2) = 14 degrees ------------------------ 
stage s3 ( i 
.b (b20), .x(x20), .y(y20), .atan(8'd14), .sx(sx20), .sy(sy2o0), 
-bp(b3), .xp(x3), .yp(y3)); 
pregregister3 ( 
.enable (enable), 
.clock (clock), 
.reset (reset), 
„Þinn (H3); .«xin(x3)}), «.yvyin(y3), 
.sxin({{3{x3[7]}}, x3[7:3]}), .syin({{3{y3 [7] }}, y3(7:3]}), 
.bout (b30) , .xout (x30), .yout (y30), .sxout (sx30), .syout (sy30) ) ; 


//Stage 4: atan(2*-3) = 7 degrees ------------------------- 
stage s4 ( 
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.b(b30), .x(x30), .y(y30), .atan(8'd7), .sx(sx30), .sy(sy30), 
.bp(b4), .xp(x4), .yp(ly4)); 
pregregister4 ( 
.enable (enable), 
.clock (clock), 
.reset (reset), 
.bin (b4), .xin(x4), .yin(y4), 
.sxin({{4{x4[7]}}, x4[7:4]}), .syin({{4{y4[7]}}, y4[7:4]}), 
.bout (b40) , .xout (x40), .yout (y40), .sxout (sx40), .syout (sy4o)) ; 


//Stage 5: atan(2*-4) = 4 degrees ------------------------- 
stage s5 ( 
.b (b40), .x(x40), .y(y4o), .atan(8'd4), .sx(sx40), .sy(sy4o), 
-pbp(b5), .xp(x5), ~yply5)) : 
pregregister5d ( 
.enable (enable), 
-clock (clock), 
.reset (reset), 
ts) .<xin@s), <yinty5), 
.sxin({{5{x5([7]}}, x5[7:5]}), 
.syin({{5{y5(7]}}, y5(7:5]}), 
.bout (b50) , .xout (x50), .yout (y5o0), .sxout (sx50), .syout (sy5o) ) ; 


//Stage 6: atan(2*-5) = 2 degrees ------------------------- 
stage sé ( 
-b(b50), .x(x50), .y(y5o0), .atan(8'd2), .sx(sx50), .sy(sy5o), 
.bp(b6), .xp(x6), .yp(ly6)); 
pregregister6 ( 
.enable (enable), 
clock (clock), 
.reset (reset), 
-bin(b6), .xin(x6), .yin(y6), 
.sxin({{6{x6[7]}}, x6[7:6]}), 
.syin({{6{y6[7] }}, y6[7:6]}), 
.bout (b60), .xout (x60), .yout (y6o), .sxout (sx60), .syout (sy6o) ) ; 


//Stage 7: atan(2*-6) = 1 degrees ------------------------- 
stage s7( 

-b(b60), .x(x60), .y(y6o), .atan(8d1), .sx(sx60), .sy(sy6o), 

DODF); ool YOy) 3 

pregregister7( 

.enable (enable), 

.Clock (clock), 

.reset (reset), 

Din(b7), «xin(x?), Yin(ty?), 

.sxin({7{x7[7]}}), 

.syin({7{y7[7]}}), 

.bout (b70) , .xout (x70), .yout (y7o), .sxout (sx70), .syout (sy7o) ) ; 


endmodule 


module stage 人 
input [7:0] b, 
input [7:0] x, 
input [7:0] y, 
input [7:0] atan, 
input [7:0] sx, sy, 
output reg [7:0] bp, xp, yp 
) ; 


//b is the 8-bit rotation angle between -90 and +90 degrees 
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//8-bit x-y coordinate point in a 2D space 
wire mode = b[7]; //sign of rotation angle b 


always@ (*) 


begin 
if (mode = 0) 
bp = b = atan; // bt = b = atan if b >= 0 
else 
bp = b + atan; //b' = b+ atan if b < 0 
end 


always@ (*) 


begin 
if (mode = 0) 
xp = x — sy; //x' = x -= y*(2^-i) if b >= 0 for the 
//ith iteration 
else 
ap = x + sy; //X! = % + y¥(2"-1) ifb«< 0 
end 


always@ (*) 


begin 
if (mode == 0) 
yp = y + ex; FY! = y + x * (25-i) if b 0 
else | 
yp = y - sx; //y' =y = x * (2*°-i) if b < 0 
end 
endmodule 


module preg ( 
input enable, 
input clock, reset, 
input [720] bin, xin, Vin, 
input [7:0] sxin, syin, 
output reg[7:0] bout, xout, yout, sxout, syout 


) i 


always@(posedge clock or posedge reset) 


begin 
if (reset == 1) 
begin 
bout <= 0; 
xout <= 0; 
yout <= 0; 
sxout <= 0; < > 
syout <= 0; 
end 
else if (enable == 1) 
begin 
bout <= bin: 
xout <= xin; 
yout <= yin; 
sxout <= sxin; 
syout <= syin; 
end 
end 
endmodule | E 


4. 仿真 
例 6-6 中 流水 线 的 Verilog 模型 通过 使 用 Altera Quartos T ~ ModelSim 设计 和 仿真 工具 
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进行 了 综合 和 仿真 。 例 6-7 描述 了 将 图 6-24 中 虚拟 对 象 “房子 ”的 S$ 个 向 量 转换 55° 的 测试 
台 。 仿 真 波形 在 图 6-26 中 表示 了 出 来 。 为 了 方便 ， 仿 真 数 据 用 十 进 制 进行 了 表示 。 
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图 6-26 WAB 6-6 中 流水 线 描述 的 波形 图 ; 值 都 用 十 进 制 表示 


ime 这 里 表示 了 例 6-6 中 仿真 流水 线 模型 的 测试 平台 。 
解 : 对 象 “ 房 子 ” 中 只 有 5 个 向 量 ， 它 们 在 代码 中 被 列 为 5 个 测试 向 量 。 如 有 果 有 很 多 测 
试 向 量 时 ， 我 们 可 以 从 一 个 文件 中 读 取 这 些 测试 问 量 。 


module tester (); 
reg clock, reset, enable; 
reg [7:0] degrees, x, Y; 
wire [7:0] xp, yp; 
cordic ul(clock, reset, enable, x, y, degrees, xp, yp); 


initial begin 
clock = 1; 
reset = 1; 
enable = 0; 
#5 reset = 
end 


0; 


always begin 
#5 clock = ~clock; 
end 


initial begin 
enable = 1; 
degrees = 55; //rotate by 55 degrees 


x = 10; y = 10; //point a 
#10 x = 10; y = 20; //point b 
#10 x = 15; y = 30; //point c 
#10 x = 20; y = 20; //point a 
#10 x = 20; y = 10; //point d 
#80 


enable = 0; 
#20 Sfinish; 
end 
endmodule 


# 6-14 表示 了 从 图 6-26 仿真 波形 图 中 获取 到 的 原始 和 计算 后 的 坐标 点 。 新 坐标 值 中 包 
含 一 个 等 于 1.653 = 1/0.6048 的 增 量 ， 因 此 ， 旋 转 后 的 虚拟 对 象 看 起 来 比较 大 ， 如 图 6-27 所 
示 。 为 了 去 掉 这 个 增 量 ， 每 一 个 坐标 值 都 必须 乘 以 一 个 常数 0.6048。 这 需要 一 个 FPU， 因 
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此 这 个 尺度 变换 必须 由 CPU 完成 。 
表 6-14 从 图 6-26 仿真 波形 图 中 获取 的 仿真 数据 总 结 


“房子 ”原始 坐标 点 (十 进 制 ) “房子 ”转换 后 的 坐标 点 (十 进 制 ) 
a: (10, 10) a7: (—4, 23) 
b: (10, 20) b7: (—18, 34) 
c: (15, 30) c7: (—27, 49) 
d: (20, 20) d7: (—8, 46) 
e: (20, 10) e7: (4, 37) 


* 坐标 值 包含 一 个 等 于 1.653 = 1/0.6048 的 增 量 





268 6-27 ”原始 对 象 “房子 ”和 它 的 55° 旋转 。 新 的 对 象 被 扩大 1.653 = 1/0.6048 ERF 


K 6-15 中 给 出 了 不 带 增 量 和 任何 由 公式 〈6-14 ) 中 转换 表达 式 计 算 所 得 值 的 新 得 出 的 
坐标 值 。 这 些 得 到 的 值 与 计算 所 得 的 值 比较 相近 ， 但 不 一 样 。 这 种 差异 的 原因 是 ， 这 里 给 出 
的 算法 使 用 整数 除法 ， 从 而 比 使 用 FP 除法 带 来 更 多 的 舍 人 误差 。 


表 6-15 ”使 用 和 迭代 旋转 算法 得 到 的 新 坐标 值 ， 而 非 使 用 公式 (6-14) 中 转换 表达 式 计 算 所 得 


向 量 计算 得 到 的 新 坐标 ， 不 含 增 量 = 1.653 计算 得 到 的 新 坐标 
; C246, 1393) 


b (-10.88, 20.56) (-10.64, 19.66) 


aes A 


( 续 ) 


a” Ler 
a 4.91, 2785) 
e (2.42, 22.38) (3.28, 22.11) 


CORDIC 旋转 流水 线 可 以 通过 带 有 两 个 内 部 存储 单元 的 简单 二 维 图 形 处 理 器 来 实现 : 
1 ) 存储 作为 输入 的 虚拟 对 象 的 最 初 坐标 点 ，2 ) 存储 作为 输出 的 计算 得 到 的 新 坐标 点 。 
CORDIC 处 理 需 将 会 是 一 个 类 似 于 图 形 处 理 器 单元 (GPU) 的 协 处 理 器 。 然 而 ， 在 这 种 情况 
下 ， 这 个 协 处 理 器 将 会 提前 使 用 它 的 内 存 空间 执行 固定 的 CORDIC 旋转 任务 来 绘图 。 协 处 
理 器 将 没有 指令 执行 。CPU 将 通过 初始 化 虚拟 对 象 的 最 初 和 最 终 的 坐标 点 来 启动 这 个 协 处 
理 器 ， 这 些 虚拟 对 象 位 于 主 存 〈 系 统 内 存 ) 和 每 一 个 输入 输出 内 部 存储 单元 之 间 。 一 且 协 处 
理 器 完成 计算 出 新 的 坐标 而 且 新 的 坐标 被 传送 到 主 存 中 ， 协 处 理 器 将 通知 CPU， 这 样 将 从 
主 存 中 得 到 新 的 坐标 ， 在 每 一 个 新 坐标 点 乘 以 常数 比例 因子 0.6048 后 ， 将 在 屏幕 上 显示 出 
旋转 后 的 虚拟 对 象 。 对 于 如 何 计算 CORDIC 处 理 器 的 吞吐 量 要 参考 练习 6.15。 存 储 器 的 设 
计 在 下 一 章节 中 介绍 ，CPU 发 起 内 存 数 据 的 大 量 传输 在 第 9 章 中 进行 讨论 。 
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练习 
对 于 练习 6.1 ~ 练习 6.3: 假设 8 位 加 法 器 的 传播 延 时 是 0.8ns， 加 法 器 /减法 器 是 1.1ns，2-1 选择 器 是 
0.3ns, 4-1 选择 器 是 0.6ns。 而 且 ， 假 设 寄存 器 的 建立 时 间 (Ct) ERR g (te) 和 时 钟 相位 差 (re) 都 
是 0.05ns。 
6.1 为 以 下 每 一 个 数据 通路 计算 所 需 的 最 大 时 钟 频率 : 
a. 图 6-2 中 单 周 期 数据 通路 
b. 图 6-3 中 多 周期 数据 通路 
c. 图 6-4 中 流水 线 数据 通路 
6.2 计算 通过 练习 6.1 (a) 和 练习 6.1 (b) 中 数据 通路 能 够 计算 出 4 + B+ C+tD 值 所 需 的 总 时 间 。 
6.3 ”估算 在 以 下 数据 通路 之 间 当 生成 N= 1000 次 的 A + Bi+ Ci+tD; 值 时 的 加 速 比 ， 其 中 i= 0, 1,2,…， 
999。 忽 略 数据 的 读 取 和 写 入 时 延 。 
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a. 练习 6.1 (a) 与 练习 6.1 (c) 
b. 练习 6.1 (b) 与 练习 6.1 (c) 
6.4 假设 一 个 新 处 理 器 的 电容 性 负载 比 旧 处 理 器 低 25%， 工 作 时 钟 频率 高 20%。 确 定 两 个 处 理 器 消耗 
的 动态 功率 比值 。 对 得 到 的 结果 做 出 评论 。 
6.5 ”假设 新 处 理 器 的 电压 源 是 操作 旧 处 理 器 所 用 的 50%， 它 的 总 体 电容 性 负载 低 13%， 工 作 时 钟 频率 
高 40%。 确 定 两 个 处 理 器 消耗 的 动态 功率 比值 。 对 得 到 的 结果 作出 评论 。 
6.6 ”给 出 3 位 的 4_value = 6 与 3 位 的 B_value = 5 相 乘 后 的 寄存 器 的 内 容 ， 使 用 图 6-15 中 多 周期 无 符 
号 乘法 器 。 
6.7 设计 满足 如 下 建 模 的 8 位 无 符号 乘法 电路 : 
a. 使 用 原理 图 设计 工具 (比如 LogicWorks) 或 者 全 部 结构 式 的 HDL 模型 去 建 模 这 个 乘法 电路 。 
你 可 以 在 数据 通路 中 设计 一 个 多 功能 寄存 器 去 实现 寄存 器 4、B 和 P。 
b. 使 用 混合 式 HDL 模型 。 对 寄存 器 4、B、P 和 模 8 计数 器 使 用 行为 建 模 。 然 后 组 合 4、B、P、 
计数 器 和 加 法 器 来 完成 设计 。 
6.8 给 出 4 位 的 2 的 补 码 4 value = 5 5 B value = -2 相 乘 后 的 寄存 器 的 内 容 ， 使 用 图 6-21 中 2 的 补 
码 乘法 器 。 
6.9 ”给 出 4 位 的 2 的 补 码 4_value = -5 与 B value = -2 相 乘 后 的 寄存 器 的 内 容 ， 使 用 图 6-21 中 2 的 
补 码 乘法 器 。 
对 练习 6.10 和 练习 6.11 : 使 用 标准 的 反 相 不 归 零 (NRZI) 发 生 器 FSM ( 见 第 5 章 练习 部 分 )， 设 计 
出 一 个 NRZI 转换 系统 。 假 设 输入 流 是 一 次 处 理 的 16 位 。 而 且 ， 因 为 在 源 和 目的 模块 之 间 没 有 共用 
的 时 钟 ， 并 且 数 据 位 在 被 称 为 D+ A D- 的 双 绞 线 上 传输 (其 中 DDD- 是 D+ 的 反 向 )， 我 们 必须 通过 确 
保 NRZI 输出 在 多 个 时 钟 周期 不 会 保持 1 或 0 的 值 来 防止 出 现 源 和 目的 模块 之 间 的 数据 同步 问题 。 这 
是 通过 确保 在 输入 流 中 每 出 现 6 个 连续 的 1 时 ， 在 输出 端 发 生 一 次 转变 实现 的 。 这 样 能 保证 输出 流 中 
最 多 会 有 7 个 连续 的 1 或 7 个 连续 的 0。 例 如， 对 于 得 到 的 输入 = 1100011111110011 (0xC7F3)， 从 
右 到 左 ， 改 变 后 的 NRZI 发 生 器 必须 输出 Y=11101001111111011 (或 0x1D3FB 从 右 到 左 ) ; 
Xt X = OxFFFF, Y= 0x3E03F ; XF X= 0xCFF6, Y= 0x123F8 ; XF X=0x0000, Y= 0xAAAA。 


. NRZI 系统 由 一 个 数据 通路 和 一 个 控制 单元 组 成 。 完 成 以 下 练习 : 


6.10 设计 一 个 数据 通路 包含 16 位 的 多 功能 (并行 加 载 和 右 移 ) 输入 寄存 器 ， 一 个 标准 NRZI FSM, 
一 个 跟踪 输入 位 的 模 17 计数 器 。 设 计 一 个 关于 数据 通路 的 基于 FSM 的 控制 单元 ， 能 够 实现 
NRZI， 而 且 跟 踪 输 入 中 6 个 连续 的 1。( 如 果 有 必要 ， 可 能 会 用 到 一 个 18 位 的 并 行 加 载 和 右 移 
寄存 器 来 获取 输出 位 。) 

6.11 设计 一 个 数据 通路 ， 由 16 位 的 多 功能 输入 寄存 器 ， 一 个 标准 NRZI FSM， 一 个 跟踪 得 到 的 输入 
位 的 模 17 计数 器 (CNTR1 )， 一 个 跟踪 输入 中 连续 的 1 的 模 7 计数 器 (CNTR2 ) 组 成 。 设 计 一 
个 关于 数据 通路 的 基于 FSM 的 控制 单元 ， 能 够 实现 NRZI， 而 且 跟 踪 输 入 中 6 个 连续 的 1。( 如 
果 有 必要 ， 可 能 会 用 到 一 个 18 位 的 并 行 加 载 和 右 移 寄存 器 来 获取 输出 位 。) 

6.12 ”设计 一 个 练习 6.11 中 数据 通路 的 微 程 序 控制 器 。 

6.13 ”计算 图 6-24 中 虚拟 对 象 “ 房 子 ” 旋 转 35° 后 的 新 坐标 点 。 将 你 的 结果 与 用 公式 (6-14) 中 表达 
式 计 算出 的 结果 进行 对 比 。 

6.14 计算 图 6-24 中 虚拟 对 象 “ 房 子 ” 旋 转 -35° 后 的 新 坐标 点 。 将 你 的 结果 与 用 公式 (6-14) 中 表达 
式 计 算出 的 结果 进行 对 比 。 

6.15 ”假设 文中 讨论 过 了 实现 七 步 流水 线 CORDIC 旋转 算法 的 二 维 图 形 处 理 器 。 而 且 ， 假设 一 个 加 法 
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6.16 
6.17 


器 或 减法 器 的 时 延 是 0.8ns， 寄 存 器 的 建立 时 间 (rr)、 时 钟 到 94 (tea) 和 时 钟 相位 差 ( ts) 都 是 
0.05ns。 在 0.001 秒 内 流水 线 可 以 处 理 的 坐标 点 的 最 大 数量 值 大 约 是 多 少 ? 忽略 与 读 和 写 坐 标点 
相关 的 时 延 。 

用 你 自己 选择 的 一 种 语言 写 一 段 程序 来 实现 书 中 描述 的 CORDIC 旋转 伪 代 码 。 

WP EXT — 个 泰勒 级 数 为 k 的 指数 函数 : 


x? Pl 
es =] tir Pay Te TET 
本 系列 中 每 一 种 情况 都 能 从 之 前 的 情况 中 计算 所 得 ， 这 里 介绍 了 前 4 种 情况 : 
第 一 种 情况 = 1 


第 二 种 情况 = 第 一 种 情况 * 工 
第 三 种 情况 = 第 二 种 情况 « 


第 四 种 情况 = 第 三 种 情况 * 2 
使 用 一 个 组 合 电路 加 法 器 、 乘 法 器 、 除 法 器 和 其 他 必要 的 模块 ， 完 成 以 下 要 求 : 
一 个 多 周期 的 数据 通路 来 计算 对 给 定 x 的 5 种 情况 的 e。 而 且 ， 确定 在 模块 的 时 延 分 别 为 
Tsn Teg 和 Tes 情况 下 的 最 小 时 钟 周 期 。 
b. 画 一 个 最 小 时 延 的 流水 线 数据 通路 来 计算 对 给 定 x 的 5 种 情况 的 e。 而 且 ， 确定 在 模块 的 时 
延 分 别 为 Tse. Teg 和 Tes 情况 下 的 最 小 时 钟 周期 。 


计算 机 安全 
6.18 ”计算 机 安全 (保密): 通过 练习 11.17 来 设计 一 个 带 有 控制 单元 的 流 加 密 (也 可 以 参考 11.5.1 节 )。 


6.19 
6.20 
6.21 


计算 机 安全 (保密 ): 通过 练习 11.18 和 /或 练习 11.19 来 理解 RSA 加 密 算法 (11.5.3 节 )。 
计算 机 安全 (保密 ): 通过 练习 11.20 来 理解 非 对 称 和 对 称 密码 (也 可 以 参考 11.5 节 )。 
计算 机 安全 (全 面 地 理解 加 密 哈 希 ): 通过 练习 11.21 ~ 练习 11.23 (11.6 WA 11.7 节 )。 272 
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7.1 简介 


寄存 器 用 于 存储 一 个 当 我 们 需要 时 就 可 立即 读 出 的 数据 。 而 存储 器 与 之 不 同 ， 存储器 用 
于 存储 程序 执行 过 程 中 的 代码 和 数据 。 那 些 用 于 实现 不 同 存储 类 型 的 存储 技术 所 需要 的 人 硬件 
资源 要 比 锁 存 器 或 触发 器 少 得 多 。 不 过 ， 存 储 器 需要 花费 更 多 的 时 间 来 实现 数据 的 存储 (5) 
和 检索 ( 读 )。 

存储 器 的 存储 大 小 是 以 字 节 为 单位 的 ，1 字 节 即 8 位 (b)， 表 7-1 展示 了 一 系列 存储 单 
位 。 图 7-1 阐明 了 1KB (1024B) 存储 单元 的 2 种 不 同 逻 辑 结 构 。 在 图 7-1a 中 ，1KB 存储 单 
元 中 有 1024 个 单元 ， 每 个 单元 中 可 存储 1B 内 容 ， 一 个 1024 8 的 存储 单元 需要 10 位 地 址 
(2'°= 1024) 来 区 分 每 一 个 1B 单元 。 在 图 7-1b 中 ，1024B 的 存储 单元 含有 512 个 位 置 ， 每 个 
位 置 可 存放 2B (16 位 ) 数据 ， 一 个 $12 x 16 的 存储 单元 需要 9 位 地 址 (2 = 512) 来 区 分 每 
一 个 大 小 为 2B 的 单元 。 


表 7-1 存储 单元 大 小 实例 
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[MB vB 


pide | 
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_0| 0000000000 | 00010001 
oo. | 0000000001 | 10000111 _ 
2| 0000000010 | 00111100 
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| F | 0 | 000000000 | 0001000100010001 
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(1023) 1111111111 | 10000001 ee TT 
a) 1K x 8 存储 器 b ) 512 x 16 存 储 器 
图 7-1 两 种 包含 任意 内 容 的 1KB 存储 大 小 逻辑 结构 示意 图 a) 1K x 1B; b)512 x 2B 


存储 器 数据 读 写 的 速度 直接 影响 着 冯 “' 诺 依 曼 结构 计算 机 (如 第 1 章 图 1-2 ) 的 性 能 。 
近年 来 ， 计 算 机 CPU 运行 速度 的 增长 要 比 存储 器 读 写 数据 速度 的 增长 快 得 多 ， 故 而 需要 一 
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种 更 快 存储 技术 、 更 优 的 存储 组 织 结构 来 弥补 计算 机 读 写 速度 与 CPU 运算 速度 之 间 的 差距 。 
现在 已 经 被 使 用 的 技术 有 管道 技术 和 并 行 处 理 技 术 : 管道 技术 通过 并 行 存储 读 写 操作 和 降低 
平均 存储 读 写 时 间 来 增加 系统 的 并 发 性 ， 并 行 技术 通过 在 更 短 的 时 间 里 传送 更 多 数据 来 提升 
多 处 理 机 系统 和 实时 应 用 的 性 能 。 

这 一 章 大 致 介绍 了 已 用 的 存储 技术 及 其 应 用 ， 全 面 讲述 了 存储 单元 内 部 结构 、 存 储 单元 
模型 逻辑 原理 图 以 及 在 存储 心 片 内 部 用 于 支持 多 种 应 用 的 存储 单元 组 织 结 构 。 这 一 章 也 阐述 
了 包含 当今 已 被 广泛 使 用 的 存储 技术 在 内 的 存储 组 织 结 构 、 存 储 时 序 以 及 存储 器 和 其 他 部 件 
交互 的 协议 规范 。 同 时 ， 在 本 章 中 也 探讨 了 关于 现代 计算 机 系统 的 存储 结构 ， 介 绍 了 如 何 纺 
写 程序 来 降低 存储 使 用 次 数 和 提升 存储 性 能 ， 并 提供 实例 以 供 参考 ， 此 外 ， 还 提供 了 一 个 用 
硬件 描述 语言 来 控制 存储 的 实例 。 


7.2 存储 技术 


通常 ， 存 储 器 可 分 为 只 读 存储 器 ( ROM) 和 随机 存 取 存 储 器 (RAM)。 存 储 1 位 数据 的 
存储 右 人 硬件 被 称 为 存储 单元 。 在 只 读 存 储 右 中 ， 存 储 单元 中 的 数据 是 非 易 失 性 的 ， 非 易 失 性 
指 的 是 存储 单元 中 的 数据 内 容 在 断 电 情况 下 也 不 会 丢失 。 其 他 具有 非 易 失 性 的 存储 器 包括 磁 
盘 、flash 存储 器 [1] 和 光盘 (CD-ROM)， 这 三 种 非 易 失 性 存储 器 中 数据 都 是 以 块 为 单位 进 
行 组 织 和 存储 读 写 的 ， 磁 盘存 储 器 将 在 第 9 章 详细 介绍 。 

与 只 读 存储 器 不 同 的 是 ， 随 机 存 取 存储 器 是 易 失 性 的 ， 也 就 是 说 RAM 存储 单元 中 的 数 
据 内 容 在 断 电 情 况 下 会 丢失 。 只 读 存 储 器 和 随机 存 取 存储 器 都 是 随机 访问 的 ， 也 就 是 说 两 者 
访问 一 个 存储 单元 中 的 数据 所 需要 的 时 间 是 相同 的 ， 因 为 这 个 原因 ， 只 读 存储 器 有 时 也 被 称 
作 非 易 失 性 随机 读 写 存储 器 (NVRAM )。 


7.2.1 只 读 存 储 器 


只 读 存 储 器 的 存储 单元 中 的 内 容 被 固定 为 逻辑 0 或 逻辑 1， 可 编程 只 读 存储 器 (PROM) 
使 用 熔 线 技术 来 一 次 性 擦 写 存储 器 ， 存 储 单元 可 被 擦 写 为 逻辑 0 (不 熔断 ) 或 逻辑 1 (熔断 )。 
紫外 线 擦 除 可 编程 存储 右 (EPROM) 现 如 今 已 不 常用 ， 它 需要 搁置 在 紫外 线 光 源 下 一 段 时 间 
(如 30 分钟) 来 擦 除 存 储 单元 中 的 信息 。 男 一 种 如 今 常 用 的 电 擦 除 可 编程 存储 器 (EEPROM) 
使 用 电子 擦 除 来 读 写 存储 单元 使 之 成 为 逻辑 0 或 逻辑 1， 然 而 电 擦 除 可 编程 存储 器 只 能 被 擦 
写 编程 一 定 次 数 (最 少 100 000 次 )。 


7.2.2 ”随机 存 取 存储 器 


男 一 方面 ， 随 机 存 取 存储 器 被 设计 为 程序 执行 过 程 中 存储 代码 和 数据 的 主要 功能 部 件 。 
当 一 个 逻辑 1 状态 的 随机 存 取 存 储 器 存储 单元 存储 了 一 个 静态 电荷 时 ， 我 们 就 称 该 存储 器 是 
静态 的 ， 只 要 存储 器 不 断 电 ， 这 个 电荷 将 一 直 保 留 。 静 态 随 机 存 取 存储 器 也 被 称 为 SRAM。 
当 一 个 逻辑 1 状态 的 随机 存 取 存储 器 存储 单元 存储 了 一 个 动态 电荷 时 ， 我 们 称 该 存储 器 为 动 
态 的 ， 这 个 电荷 在 存储 器 不 被 刷新 的 情况 下 只 会 保留 非常 短 的 时 间 ， 典 型 的 刷新 频率 是 几 毫 
秒 一 次 ， 动 态 随 机 存 取 存储 器 也 被 称 为 DRAM 。 

SRAM 与 DRAM 存储 单元 

图 7-2 说 明了 SRAM 和 DRAM 的 存储 单元 电路 图 。SRAM 的 存储 单元 电路 显示 其 需要 
两 个 晶体 三 级 管 和 两 个 交叉 耦合 的 非 门 ， 而 DRAM 只 需要 一 个 晶体 三 极 管 和 一 个 小 电容 ， 
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由 此 可 见 DRAM 需要 的 硬件 资源 比 SRAM 要 小 得 多 。 图 7-2c 中 为 nMOS 的 电路 图 ， 图 中 ， 
晶体 管 的 三 个 管 脚 被 标记 为 a、b、e。e 输入 管 脚 为 使 能 信号 。 当 e 管 脚 输入 为 1 时 ， 只 要 a, 
b 管 脚 连 接线 路 ， 无 论 从 a 到 4b 还 是 从 b 到 a， 唱 体 管 中 的 电子 通路 都 是 导 通 的 ， 而 当 e 管 
脚 输入 为 0 时， 管 脚 a、5b 间 的 电路 是 隔离 的 (高 阻抗 )，a、z2 管 脚 之 间 电 流 小 到 相当 于 两 者 
电路 未 连接 。 


读 / 写 9 读 / 写 q 读 / 写 q 
选择 单元 T 
d d d 
电容 器 
pe 
a) 静态 随机 存 取 存 储 器 单元 b ) 动态 随机 存 取 存 储 器 单元 





c) NMOS 晶 体 管 
7-2 存储 单元 a) SRAM 存储 单元 ; b) DRAM 存储 单元 ; c) nMOS 晶体 管 


在 图 7-2a 中 ， 当 存储 单元 被 选中 时 ， 两 个 晶体 管 将 导 通 4 到 gq 和 4g 到 9 ， 存 储 单元 根据 
q 和 9 的 信和 号 将 其 内 容 读 出 或 写 人 。 但 是 当 存 储 单元 未 被 选中 时 ， 两 个 晶体 管 将 保持 交叉 耦 
合 的 两 个 非 门 与 ¢ 信号 线 和 5 信号 线 为 隔离 状态 ， 在 这 段 时 间 中 ， 只 要 存储 单元 不 断 电 ， 存 
储 单元 将 一 直 保 持 其 中 存储 的 数据 do 

DRAM 的 存储 单元 的 读 写 操作 与 SRAM 不 同 ， 在 图 7-2b 中 ， 当 存储 单元 被 选中 并 进行 
写 操作 时 ， 电 容器 将 被 充电 达到 代表 逻辑 1 的 电压 值 ， 否 则 晶体 管 保 持 了 电容 器 的 孤立 并 使 
之 不 与 q 信号 线 直接 相 接 。 然 而 ， 当 电容 器 充电 至 逻辑 1 EE, HAS aR AY fo REE 
持 非常 短 的 时 间 ， 一般 为 几 毫 秒 。 因 此 ， 电 容器 中 的 电荷 必须 周期 性 地 在 一 个 刷新 周期 内 被 
刷新 。 和 否则 ， 电 容器 中 的 电荷 将 泄漏 从 而 导致 存储 单元 中 的 内 容 丢 失 ， 就 像 落 在 手电 简 中 的 
电池 过 段 时 间 就 会 没 电 一 样 。 

当 存 储 单元 被 选中 后 ， 电 容器 将 在 tc=R* C 秒 内 充电 来 达到 代表 逻辑 1 的 电压 。R 指 
的 是 与 晶体 管 被 选中 状态 时 相等 价 电 阻 的 电阻 值 ， 单 位 是 欧姆 ; C 指 的 是 电容 器 的 大 小 ， 单 
位 是 法 。 电 容器 中 的 电荷 将 在 上 = R:* C 秒 时 间 内 释放 ， 其 中 OR, 是 存储 单元 未 被 选中 时 的 等 
价 电阻 的 电阻 值 ，R: 要 比 R 大 得 多 。 

[AR Ve = Vs (1 - e™9 说明 了 电容 器 是 如 何 充电 的 ， 当 充 电 电 压 源 Vs 为 5,0V(V 是 
伏特 ) 时 ， 电 容器 中 的 电压 将 在 约 t= 1RC 秒 内 达到 3.16V, 5.0(1-e')V = 3.16 Vo EE 
范围 在 0 ~ 5.0V 时 ，3.16V 电压 代表 逻辑 1。 然 而 电容 器 需要 约 ! = 5RC 秒 才能 被 充满 ， 等 
I V= Ve x 说 明了 电容 器 是 如 何 放电 的 [2]。] 

一 个 DRAM 必须 要 在 其 存储 单元 丢失 其 信息 内 容 之 前 进行 刷新 。 以 美国 微 光 公司 的 
64MB 的 DRAM 为 例 [3]， 其 组 织 结构 是 128M x4， 有 512M ( 128M x 4 ) 个 存储 单元 ， 要 
求 每 个 存储 单元 必须 在 64ms 内 被 刷新 。 存 储 单元 必须 在 刷新 周期 内 被 刷新 从 而 留 出 足够 的 
时 间 供 DRAM 在 两 个 刷新 操作 之 间 进 行 读 写 操作 。 例 如 ， 微 光 公 司 的 DRAM 在 一 个 更 新 周 
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期 内 每 次 同时 刷新 64K ( 65 536) 个 存储 单元 ， 共 需要 8192 (512M/64K) 次 刷新 操作 来 刷 
新 所 有 的 512M 个 存储 单元 ， 每 个 刷新 周期 为 64ms。 这 意味 着 同时 刷新 64K 个 存储 单元 必 
须要 在 7.8hs (64ms/8192) 内 完成 。 而 DRAM 每 次 需要 7.5ns 来 读 写 其 内 容 ， 因 此 ，DRAM 
在 两 次 刷新 操作 之 间 能 够 进行 多 达 1000 (7.8us/7.5ns) 次 的 读 写 操作 。 

在 读 操作 中 ， 电 容器 中 的 电 符 将 决定 该 存储 单元 中 存储 的 是 1 还 是 0， 当 电容 器 的 电压 
在 逻辑 1 的 电压 值 时 进行 读 写 操作 ， 电 容器 中 的 电荷 可 能 会 丢失 ， 因 此 存储 单元 在 进行 读 操 
作 后 必须 被 再 次 刷新 。 我 们 通过 对 刚刚 进行 读 操作 的 存储 单元 再 执行 一 次 写 操作 来 实现 对 该 
存储 单元 的 再 次 刷新 操作 。 


7.2.3 WR 


有 很 多 应 用 是 针对 只 读 存 储 器 的 ， 例 如 ，EEPROM 被 用 来 存储 系统 上 电 时 执行 的 引导 
装载 程序 ， 或 者 存储 基于 ROM 的 可 编程 逻辑 设备 (PLD) 的 配置 文件 。EEPROM 技术 也 被 
用 来 设计 flash 存储 器 ， 如 闪 盘 驱动 器 。 然 而 ， 因 为 存储 在 闪存 中 的 数据 是 组 织 有 序 的 ， 并 
且 以 块 的 方式 进行 存 取 ， 闪 存 的 数据 组 织 和 读 取 方式 与 磁盘 和 光盘 是 相似 的 ， 因 此 闪存 的 读 
取 速 度 也 相对 较 慢 。 当 下 许多 便携 式 设备 使 用 快 内 存储 器 来 代替 磁盘 驱动 器 。 

SRAM 相对 于 DRAM 需要 更 多 的 硬件 资源 ， 因 此 其 单位 字 节 的 成 本 要 更 高 。 但 由 于 
SRAM 不 需要 DRAM 的 刷新 周期 和 读 后 写 周期 ， 其 存 取 速度 相对 更 快 。 现 代 计 算 机 使 用 
DRAM 作为 主 存 (并 不 是 全 部 采用 DRAM)， 使 用 SRAM 作为 高 速 缓冲 存储 器 (cache), Mit 
减少 了 计算 机 读 取 数据 消耗 的 平均 时 间 。 高 速 缓冲 存储 器 的 存储 结构 将 在 第 10 章 详细 描述 。 


7.3 存储 单元 阵列 


所 有 的 存储 器 内 部 都 使 用 二 维 的 存储 单元 组 织 结构 ， 这 一 结构 有 两 大 优点 ， 一 是 减少 了 
存储 器 选择 一 系列 目标 存储 单元 所 需要 的 信号 线 数量 ， 二 是 当 存储 器 是 动态 随机 存 取 存 储 器 
时 ， 存 储 器 可 同时 刷新 多 个 存储 单元 。 在 二 维 组 织 结构 的 存储 器 中 每 个 存储 单元 需要 两 条 信 
号 线 来 确定 ， 而 一 维 组 织 结构 的 存储 器 中 每 个 存储 单元 只 需要 一 条 信和 号 线 ， 但 是 二 维 组 织 绪 
构 的 存储 器 需要 的 信和 号 线 数量 要 比 一 维 组 织 结构 少 得 多 。 例 如 ， 一 个 128B WE PAA 
1024 (128 x 8 ) 个 存储 单元 ， 如 果 其 组 织 结构 是 一 维 的 ， 如 图 7-3a 所 示 ， 选 择 不 同 的 1024 
个 存储 单元 需要 1024 条 信号 线 ， 每 次 选取 一 个 存储 单元 。 其 存储 单元 被 组 织 成 1Kx1x1 
的 单元 阵列 ， 包 含 1024 行 、1 列 ， 存 储 单元 在 每 个 行 和 列 的 交叉 处 。 

另 一 方面 ， 如 图 7-3b 所 示 ， 其 存储 单元 被 组 织 成 32 x 32 x 1 的 单元 阵列 ， 包 含 32 行 、 
32 列 ， 存 储 单元 在 每 个 行 与 列 的 交叉 处 。 这 一 组 织 结构 仅仅 需要 64 (32 + 32) 条 信号 线 来 确 
E 1024 (32x32) 个 存储 单元 ， 每 次 选择 一 个 存储 单元 。 同 样 ， 一 个 1Mx 1 的 存储 器 如 果 
其 单元 组 织 结构 是 一 维 的 ， 则 其 需要 1M ( 1 个 非常 大 的 数字 ) 条 信号 线 ， 而 相对 的 ， 才 其 
组 织 结 构 是 二 维 的 ， 只 需要 2048 (2x 2") 条 信号 线 。 很 明显 ， 二 维 组 织 结构 要 远 远 优 于 一 
维 组 织 结构 。 

在 32x32x1 单 元 阵列 中 ， 只 需要 32 个 更 新 周期 ， 每 次 更 新 一 行 中 全 部 32 个 存储 单 
元 ; 相对 的 ， 在 1K x 1 x 1 单元 阵列 中 ， 需 要 1024 个 更 新 周期 ， 每 次 只 更 新 一 个 存储 单元 。 
当 某 一 行 选择 信号 线 被 选中 时 ， 该 行 所 有 的 存储 单元 都 将 同时 被 选中 ， 这 一 操作 被 称 作 行 激 
活 。 此 外 ， 由 于 行 选择 信号 线 是 地 址 译 码 电路 的 输出 ， 其 没有 必要 作为 激活 大 量 存储 单元 的 
直接 输出 ， 相 反 ， 信 号 线 将 使 能 一 个 晶体 管 来 允许 通过 电源 激活 该 行 折 有 的 存储 单元 。 
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选择 信号 线 0 





选择 信号 线 1 
选择 信号 线 1023 
数据 ( 1 位 ) 0 列 1 列 31 列 
a ) 一 维 结构 b) 二 维 结构 ( 显示 读 操作 ) 
7-3 1024- 存储 单元 内 部 组 织 结 构 : a) 一 维 组 织 结构 需要 1024 条 信号 选择 线 ; b) 二 维 
组 织 结构 需要 64 条 信和 号 选择 线 


存储 器 通过 一 个 被 称 为 感应 放大 器 的 专用 电路 将 已 选中 行 上 的 存储 单元 内 容 全 部 置 为 多 
辑 1 或 逻辑 0。 感 应 放大 器 将 存储 单元 的 电压 电 平 与 参考 电压 相 比较 ， 以 此 来 判定 是 逻辑 1 或 
逻辑 0， 如 参考 电压 的 50% 被 用 来 表示 逻辑 1。 在 一 个 读 操作 过 程 中 ， 如 果 存 储 单元 中 存储 逻 
辑 0， 存 储 单元 将 轻微 地 拉 低 参考 电压 ， 这 将 导致 感应 放大 器 察觉 到 逻辑 0。 否 则 ， 如 果 存 储 
逻辑 1 的 存储 单元 中 的 电压 电 平 将 轻微 地 拉 高 参考 电压 ， 将 导致 感应 放大 器 察觉 到 逻辑 1。 

每 一 列 只 需要 一 个 感应 放大 器 。 从 感应 放大 器 中 输出 来 的 逻辑 0 或 逻辑 1 将 被 锁 存 并 提供 
给 有 列 选 择 信 号 控制 的 三 态 缓冲 器 。 当 存储 器 为 DRAM 时 ， 锁 存 的 输出 信号 也 被 用 于 刷新 刚刚 
读 过 的 存储 单元 。 更 多 关于 感应 放大 器 的 细节 讨论 已 经 超出 了 本 书 的 范围 ， 可 参考 其 他 资料 。 


7.3.1 FoR 


在 图 7-4 中 举例 说 明了 一 个 512 x2 (一 个 2 位 字 ) 存储 器 的 组 织 结构 。 在 图 中 ，1024 
个 存储 单元 被 分 离 为 两 个 32 x 16 x 1 单元 阵列 ， 实 际 上 是 一 个 32 x 16 x 2 的 单元 阵列 。 从 这 
个 单元 阵列 中 每 次 存 取 两 个 存储 单元 信息 ， 分 别 从 对 两 个 32 x 16 x 1 单元 阵列 中 各 取 一 个 。 
例如 ， 要 求 获取 第 0 行 第 0 列 的 选择 信和 号 将 选中 第 0 行 第 0 列 交叉 处 的 存储 单元 ， 同 时 也 将 
选中 第 0 行 第 16 列 交叉 处 的 存储 单元 。 正 如 图 7-3 所 示 , 在 32x16x2 的 单元 阵列 中 ， 单 
元 阵列 依旧 是 包含 32 行 32 列 ， 所 以 同样 需要 32 个 更 新 周期， 每 次 同时 更 新 一 行 32 个 存储 
单元 ， 从 而 来 更 新 所 有 的 存储 单元 。 


7.3.2 RAD 


突 发 访问 指 的 是 存储 器 传送 突 发 数据 的 能 力 (一 次 一 个 字 )。 突 发 数据 的 大 小 可 能 会 比 
较 小 ， 如 几 个 字 节 ， 也 可 能 会 比较 大 ， 如 一 页 (通常 为 4KB)。 突 发 访问 通过 以 下 方式 来 存 
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取 数 据 ， 先 激活 一 行 ， 然 后 按照 一 定 的 次 序 〈 如 顺序 的 ) 依次 选中 列 选 择 信号 ， 一 次 一 条 ， 
从 而 来 读 或 者 写 对 应 的 目标 存储 单元 。 每 个 突 发 访问 必须 先进 行 激活 一 行 的 操作 。 如 果 是 存 
取 一 页 或 者 以 页 模式 存 取 ， 需 要 存 取 多 行 存储 单元 ， 存 储 融 可 能 在 当前 行 信息 存 取 完 毕 时 目 
动 激活 之 后 的 行 信号 。 页 模式 存 取 方 式 通 过 减少 了 存储 需 的 空闲 时 间 并 同时 使 得 整 页 信息 无 
缝 存 取 ， 从 而 提升 了 存储 器 的 效率 。 


31 行 一 





0 列 1 列 157 
7-4 一 个 1K 个 存储 单元 组 织 成 的 32x 16 x 2 的 单元 阵列 ， 生 成 一 个 512 x 2 的 存储 器 ( 显示 读 操 
作 过 程 ) 


为 了 使 存储 器 工作 效率 更 高 ， 存 储 单元 可 以 被 组 织 成 存储 片 ， 每 个 存储 片 是 一 个 单元 阵 
列 ， 如 图 7-5 所 示 。 在 图 中 ,一 个 4K x1 的 存储 器 由 4 个 存储 片 构成 ， 每 个 存储 片 是 一 个 
32 x 32 x 1 的 存储 单元 阵列 。 在 这 种 情况 下 ， 在 当前 存储 片上 的 存 取 操作 仍 在 进行 时 ， 其 他 
存储 片上 的 行 激活 操作 也 可 同时 进行 。 因 此 ， 这 使 得 当 存储 器 存 取 数 据 操作 涉及 多 个 不 同 的 
存储 片 时 ， 存 储 片 存 取 的 周转 时 间 要 少 得 多 。 

一 个 多 存储 片 存储 器 可 以 设计 支持 在 某 存储 片上 正在 进行 块 传输 的 同时 ， 在 另 一 仓储 片 
上 进行 短 时 间 的 间 吹 性 的 突 发 数据 存 取 。 在 这 种 情况 下 ， 间 吹 性 突 发 数据 存 取 请 求 将 中 断 正 
在 某 存储 片上 进行 的 块 传输 ， 人 允许 在 男 一 存储 片上 的 短暂 突 发 访问 请 求 。 

大 多 数 现代 存储 芯片 支持 字 存 取 和 多 存储 片 ， 同 时 芯片 也 支持 突 发 访问 和 页 模式 存 取 。 
以 微 光 公司 的 512Mb (JKA) DRAM 存储 器 [3] 为 例 ， 存 储 器 可 被 设计 为 128M x4 的 4 个 
存储 片 的 RAM， 每 个 存储 片 为 8192 x 4096 x 4 的 单元 阵列 ， 或 者 设计 为 64M x 8 的 4 个 存 
储 片 的 RAM， 每 个 存储 片 为 8192 x 2048 x 8 的 单元 阵列 ， 也 可 被 设计 为 8M x 16 的 4 个 存 
储 片 的 RAM， 每 个 存储 片 为 8192 x 1024 x 16 的 单元 阵列 。 例 如 微 光 的 128M x4 RAM, 在 
单字 为 4 位 时 ， 支 持 1、2、4、8 字 的 突 发 访问 ， 同 时 也 支持 页 大 小 为 4096 位 的 页 传输 。 
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3 存储 片 





7-5 4Kx1 存 储 器 组 织 结 构 ， 分 成 4 个 存储 片 ， 每 个 为 32 x 32 x 1 单元 阵列 


7.4 存储 器 组 织 结构 


存储 器 的 组 织 结构 指 的 是 在 一 个 存储 芯片 内 部 组 件 和 组 件 之 间 的 组 织 关系 ， 以 及 存储 
髓 之 间 交 流通 信 的 协议 规范 。 使 用 多 个 存储 器 芯片 来 组 成 一 个 更 大 容量 的 存储 器 ， 称 之 为 存 
储 器 单元 。 地 址 总 线 、 数 据 总 线 、 控 制 总 线 这 三 种 总 线 信号 是 用 来 控制 一 个 存储 芯片 或 存储 
器 单元 的 操作 信和 号。 其 中 ， 地 址 总 线 信号 是 用 来 说 明 如 一 个 突 发 存 取 内 容 的 起 始 地 址 或 页 的 
起 始 地 址 等 一 块 单独 的 存储 区 的 地 址 ， 地 址 总 线 被 用 来 选中 一 系列 目标 存储 单元 以 供 读 写 操 
作 。 对 于 一 个 基本 的 存储 器 组 织 结构 ， 控 制 总 线 是 用 来 说 明 当 前 读 写 操作 是 读 操作 还 是 写 操 
作 ， 或 者 控制 存储 系统 不 在 进行 读 写 操作 时 使 用 数据 总 线 来 和 其 他 部 件 进行 交互 。 

7-6 前 述 了 1IKx 1 结构 存储 器 的 逻辑 图 以 及 其 作为 SRAM A DRAM 时 的 方 框图 。 
SRAM 需要 10 位 地 址 总 线 ， 标 记 为 ao 到 a ; 1 位 数据 总 线 ， 标 记 为 4 ; 3 位 低 信号 使 能 的 
控制 总 线 ， 标记 为 _ce (芯片 使 能 信号 )、 we ( 写 使 能 信号 )、_oe (输出 使 能 信号 )。 当 芯片 
使 能 信号 为 低 时 ， 芯 片 被 选中 ， 可 进行 一 系 在 该 存储 芯片 的 存储 单元 上 的 数据 读 写 操 作 ， 其 
R, 4 _ we 信和 号 为 1 时 (未 选中 )， 将 执行 读 操作 ， 而 当 _we 信号 为 0 时 (选中 )， 将 执行 写 
操作 。 在 读 操作 过 程 中 ， 当 输出 使 能 信号 _oe HO (选中 ) 时 ，SRAM 中 的 数据 将 输出 到 数 
据 总 线 上 。 


F tk & 221 





a9..a0 1Kx 1 
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a 1Kx1 we 

_we d i 
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a) 逻辑 示意 图 b ) SRAM 框 图 c) DRAM 框 图 
7-6 具有 低 使 能 控制 信号 的 1K x 1 存储 器 逻辑 示意 图 和 方 框图 :a) 逻辑 示意 图 ; b) SRAM 框图 ; 


c) DRAM 框图 


相对 于 SRAM 而 言 ，DRAM 有 更 多 的 存储 单元 ， 并 且 ， 由 于 DRAM 的 存储 单元 需要 
刷新 操作 ， 其 需要 更 多 的 控制 信号 线 。 其 中 ，DRAM 的 地 址 分 为 行 地 址 和 列 地 址 ， 通 过 地 
址 总 线 来 传输 ， 使 用 行 地 址 选 通 (_ ras) 和 列 地 址 选 通 ( cas) 来 确定 当前 地 址 总 线 中 的 地 址 
是 行 地 址 还 是 列 地 址 。 ras 和 cas 信和 号 也 被 用 来 控制 存储 器 进入 刷新 周期 模式 。 在 1IKx 1 
的 DRAM ERF, BARRA 5 位 地 址 总 线 ， 标 记 为 ao 到 a4，1 位 数据 总 线 被 标记 为 4 以 
及 5 位 低 信 号 使 能 的 控制 总 线 。 


7.4.1 现代 DRAM 


现代 DRAM 采用 了 同步 运行 设计 ， 故 而 该 芯片 也 被 称 为 同步 动态 随机 存 取 存 储 器 
(SDRAM)。 芯 片 包含 一 个 或 多 个 管道 化 的 数据 通路 ， 通 过 同时 处 理 多 个 数据 读 / SAK, 
从 而 提高 存储 器 的 带宽 。 

典型 的 ， 一 个 现代 DRAM 芯片 使 用 ce, ras. cas. we 4 个 接口 信号 形成 一 个 4 位 
的 指令 ， 这 一 指令 也 被 称 为 存储 器 命 令 ， 使 用 存储 器 命令 来 选择 并 发 送行 地 址 、 列 地 址 以 及 
存 取 模式 (如 单一 访问 或 突 发 访问 ) 等 信息 给 存储 器 芯片 ， 存 储 器 命令 也 可 被 用 来 执行 诸如 
启动 刷新 周期 等 存储 器 任务 。 图 7-7 展示 了 一 个 含有 两 片 SDRAM 的 数据 通路 。 存 储 器 包含 
多 个 寄存 器 来 装载 存 取 模式 以 及 行 地 址 和 列 地 址 。 两 个 存储 片 的 行 地 址 位 宽 (最 高 位 或 最 低 
位 ) 是 相同 的 ， 而 列 地 址 是 存储 在 一 个 计数 器 中 ， 当 存储 器 的 存 取 模 式 表明 该 存 取 是 一 个 突 
发 访问 或 页 传输 时 ， 存 储 在 计数 器 中 的 列 地 址 在 每 个 时 钟 周 期 递增 。 

K 7-2 显示 了 一 系列 用 于 微 光 SDRAM 的 存储 器 命令 。 例 如 ， 如 果 命 令 为 (0000 2, 
EJ ce=0, _ras=0, _cas=0, _we=0, SDRAM 将 通过 地 址 总 线 输入 存 取 模式 信息 ， 存 储 模式 
信息 之 后 将 被 载 人 模式 寄存 器 ， 如 图 7-7 所 示 。 当 存储 器 命令 为 (0011 ) ,时 ,包含 存储 片 
号 的 行 地 址 将 根据 存储 片 号 装载 人 某 个 行 地 址 寄存 器 。 当 存储 器 命令 为 (0101 ) ;时 ， 列 地 
址 将 装 入 列 地 址 计数 器 。 行 地 址 是 用 来 激活 目标 存储 片 中 的 一 行 存储 单元 ， 而 包含 列 地 址 的 
计数 器 是 用 来 在 存 取 模式 为 突 发 访问 时 自动 生成 列 地 址 。 

多 年 以 来 ， 人 们 对 存储 器 的 带宽 以 及 存储 系统 种 类 的 需求 日 益 增 加 ， 导 致 产生 了 多 种 多 
样 的 存储 器 技术 。 在 存储 器 芯片 内 部 组 织 结构 和 交互 协议 中 的 进步 促成 了 今天 的 高 性 能 同步 
动态 随机 存 取 存储 器 ( SDRAM)。 例 如 ， 单 速率 SDRAM 以 一 个 时 钟 周 期 读 写 一 次 的 速率 存 
取信 息 ， 而 双 速 率 SDRAM (DDR、DDR2、DDR3 等 ) 以 每 个 时 钟 读 写 两 次 的 速率 进行 存 取 ， 
双 速 率 SDRAM 在 时 钟 的 上 升 沿 和 下 降 沿 分 别 进行 存 取 操 作 。 
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图 7-7 含有 2 个 存储 片 的 SDRAM 内 部 组 织 结构 ， 行 地 址 信号 选中 了 某 一 存储 片 ， 图 中 未 显示 所 有 
的 信号 关系 [3] 
表 7-2 微 光 SDRAM 存储 器 命令 样 例 
功 能 ae, 
EHRE Talala 
无 操作 (NOP) a a a ee 
输入 下 一 行 地 址 (该 行 已 激活 ) Karnes 
输入 下 一 列 地 址 并 启动 突 发 访问 模式 中 的 读 操 作 | j rio | i 
输入 下 一 列 地 址 并 启动 突 发 访问 模式 中 的 写 操作 Lo. 9 | o 
终止 突 发 访问 模式 (如 有 一 个 单独 的 读 或 写 请 求 ) Lots ££. od hs 
使 当前 行 无 效 (为 新 一 行 做 准备 ) Lè Jatti 7 % 
启动 刷新 周期 oo fo fo | 1 
通过 地 址 信号 线 指定 存 取 模 式 (如 突 发 访问 或 块 访问 ) “e le | ð Ff ð 
d 表 示 无 需 在 意 该 位 。 


另 一 个 例子 是 Rambus 公司 的 专利 技术 ， 如 RDRAM 和 XDR DRAM 等 ， 其 采用 了 包 传 
输 的 高 速率 点 对 点 传输 技术 [4]。 在 这 个 示例 中 ， 包 指 的 是 一 个 短 的 、 突 发 的 、1 比特 位 宽 
的 、 从 一 个 源 模 块 (如 存储 器 ) 到 目标 模块 (如 处 理 器 ) 的 数据 。 包 传输 的 通信 模式 和 人 类 
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使 用 信件 交流 的 方式 相似 ， 每 一 封 信 ( 包 ) 包含 发 件 人 地 址 ( 源 地 址 )、 收 件 人 地 址 (目的 地 
H) 以 及 信件 内 容 (数据 )， 信 件 ( 包 ) 在 到 达 收 件 人 地 址 (目的 地 址 ) 前 将 经 过 一 个 或 多 个 
(点 对 点 ) 邮局 。 


7.4.2 SRAM 存储 单元 模型 


虽然 一 个 真实 的 存储 单元 并 不 是 通过 逻辑 门 来 构成 ， 但 是 我 们 可 以 通过 逻辑 门 来 模 
HW SRAM 存储 单元 的 方式 进而 阐述 存储 器 的 设计 和 存储 单元 的 操作 。 图 7-8a 阐述 了 一 个 
SRAM 存储 单元 结构 原理 的 逻辑 模型 。 这 个 存储 单元 由 SR 锁 存 器 (无 时 钟 ) 和 三 态 缓 冲 门 
构成 ， 两 个 电阻 分 别 将 两 个 三 态 缓冲 门 的 输出 端 和 地 相连 接 ， 这 个 电阻 也 被 称 为 下 拉 电 阻 ， 
当 三 态 缓冲 门 未 使 能 时 ， 这 两 个 下 拉 电 阻 将 使 得 存储 单元 的 输出 为 0 而 不 是 高 阻抗 。 这 也 会 
导致 当 存 储 单元 未 被 选中 时 ， 锁 存 器 的 输入 端 * 和 7 保持 为 0， 使 得 锁 存 器 保持 原 有 存储 值 
0 或 1 不 变 。 该 模型 使 用 三 态 缓 冲 门 来 模拟 图 7-2a 中 的 导 通 晶体 管 的 功能 ， 当 存储 单元 未 被 
选中 时 ，SR 锁 存 器 电路 隔离 ， 就 像 在 真实 的 SRAM 存储 单元 中 使 用 交叉 耦合 的 非 门 一 样 。 
图 7-8b 展示 了 存储 单元 的 框图 ， 图 7-8c 展示 了 一 个 下 拉 的 三 态 缓冲 门 及 其 真 值 表 。 


选择 信号 (sel) 


b ) SRAM 存 储 单元 ， 框 图 
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a) SRAM 存 储 单元 ， 逻 辑 模型 c) 下 拉 的 三 态 缓冲 门 及 其 真 值 表 
7-8 SRAM 存储 单元 逻辑 模型 : a) 门 级 模型 ; b) 存储 单元 框图 ; c) 下 拉 的 三 态 缓冲 门 及 其 真 值 表 





7.4.3 SRAM 芯片 内 部 组 织 结构 


虽然 存储 单元 阵列 是 存储 硬件 的 核心 部 分 ， 但 是 存储 单元 阵列 也 需要 一 些 额外 的 电路 辅 
以 支撑 ， 如 转换 给 定 的 存储 单元 地 址 到 具体 的 行 地 址 和 列 地 址 的 译 码 电路 以 及 供 数 据 进出 存 
储 单元 阵列 的 数据 通路 ， 典 型 的 是 双向 
数据 总 线 ， 双 向 数据 总 线 减 少 了 传输 进 
出 存储 单元 阵列 的 数据 所 需要 的 信号 线 
数量 。 

设计 一 个 16x1 的 SRAM, 
要 求 4 位 的 地 址 总 线 、1 位 双向 数据 总 线 
和 3 位 控制 总 线 。 

fe: 如 图 7-9 所 示 ， 在 SRAM AY 
辑 图 和 方 框图 中 ， 地 址 总 线 信 号 标记 为 a) 逻辑 视图 b ) 框图 
a 到 as, 1 位 数据 总 线 信和 号 标记 为 g， 三 7-9 16x1 SRAM 逻辑 视图 和 框图 


16x1 d 
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位 低 使 能 控制 总 线 信 号 标记 为 ce、 we 和 _oe。 设 计 的 细节 和 读 写 操作 过 程 将 在 之 后 描述 。 

图 7-10 展示 了 一 个 包含 4x4x 1 存储 单元 阵列 和 两 个 2-4 译 码 器 的 SRAM 内 部 组 织 结 
构 。 其 中 ， 行 译 码 器 转换 地 址 信号 的 高 两 位 a 和 a, 为 4 个 行 选择 信号 ， 列 译 码 副 转 换 地 址 
言 号 的 低 两 位 al 和 ao 为 4 个 列 选择 信号 。 行 译 码 器 会 一 直 保 持 使 能 状态 以 方便 早期 的 行 激 
活 操 作 ， 但 是 列 译 码 器 必须 在 _ce = 0 的 情况 下 才能 被 使 能 ， 正 如 图 中 所 示 。 所 有 的 信和 号 线 
必须 使 用 缓冲 以 避免 信号 源 违 规 信 号 的 输出 。 
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图 7-10 使 用 4x4x1 单 元 阵列 的 16x1SRAM 内 部 组 织 结构 


在 一 个 存储 操作 过 程 中 ， 当 ce 为 0 时 ， 行 选择 激活 信和 号 将 激活 给 定 存 储 单元 所 在 行 上 
的 所 有 相关 的 4 个 存储 单元 ， 通 过 使 能 该 行 存储 单元 的 所 有 输出 三 态 缓冲 门 ， 使 得 该 行 存储 
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单元 中 的 1 位 数据 出 现在 数据 线 do. di, do, ds 上 。 激 活 列 选择 信号 将 使 能 某 一 列 的 三 态 缓冲 
门 ， 使 得 数据 线 ad. di. d Kd; 上 的 数据 输出 到 d out 上 。 在 一 个 读 操 作 过 程 中 , 当 we=1 
时 ,和 若 _oe MIE, d out 中 的 数据 将 输出 至 数据 总 线 上 。 其 中 单独 的 输出 三 态 缓冲 门 是 用 来 
设计 实现 标记 为 d 的 1 位 位 宽 的 双向 数据 总 线 。 

存储 器 写 操作 过 程 与 读 操作 过 程 相似 ,但 此 时 ， 单 输入 三 态 缓冲 器 将 被 使 能 从 而 将 输入 
数据 传送 到 相应 的 存储 单元 中 。 在 读 操作 过 程 中 ， 通 过 使 用 三 态 缓冲 器 降低 了 SRAM 的 
TE. we, d 和 列 选 通 信号 用 于 生成 Si= 4d 和 ri = d， 这 两 个 信号 是 用 于 激活 行 中 的 目标 存 
储 单元 。 该 激活 行 中 其 他 存储 单元 的 Si 和 ri 输入 信号 将 为 0， 使 得 其 他 存储 单元 保持 之 前 
的 1 位 数据 。 

请 设计 一 个 8x2 的 SRAM， 要 求 3 位 宽 的 地 址 总 线 、2 位 宽 的 双向 数据 总 线 
以 及 3 位 宽 的 控制 总 线 。 

解 : 图 7-11 展示 了 8x2SRAM 的 逻辑 视图 和 框图 ，SRAM 有 8 个 地 址 ， 每 个 地 址 中 可 
存储 2 位 数据 ， 图 7-12 展示 说 明了 该 SRAM 的 内 部 组 织 结构 ， 其 包含 两 个 4x2 x1 的 存储 
单元 阵列 、 一 个 2-4 行 译 码 器 以 及 一 个 1-2 列 译 码 器 。 i 

8x2 SRAM f# JA T 5 Al7-10 7 
SRAM 相同 的 4x4 存 储 单元 阵列 ， 但 与 
之 不 同 的 是 ，8 x2 SRAM 中 使 用 1-2 7 
译 码 器 对 信和 号 进行 译 码 从 而 分 别 从 两 个 
4x2x1l 单 元 阵列 中 各 选择 一 个 存储 单 
元 。 此 外 ， 该 存储 器 还 包含 两 个 输入 三 态 
缓冲 门 和 两 个 输出 三 态 缓冲 门 ，2 位 宽 的 
双向 数据 总 线 信 号 线 标记 为 Al dio 


8x2 dido 





a) 逻辑 视图 b ) 框图 
7.4.4 存储 单元 设计 图 7-11 8x2 SRAM 逻辑 视图 和 框图 


一 般 情况 下 ， 一 个 单独 的 存储 芯片 并 没有 足够 的 存储 空间 以 支持 一 个 如 计算 机 一 样 复 
杂 的 数字 系统 。 在 系统 执行 过 程 中 ， 处 理 器 可 同时 操作 多 位 数据 (如 16 位 、32 位 、64 fiz), 
处 理 器 可 能 需要 多 达 几 GB 的 存储 空间 来 存储 程序 运行 中 的 指令 和 数据 ， 这 些 指令 和 数据 都 
被 看 作 存 储 数据 。 存 储 单元 是 指 存 储 空 间 的 物理 结构 ， 已 知 为 可 被 一 个 或 多 个 处 理 器 访问 的 
主 存储 器 。 当 有 一 个 以 上 的 处 理 器 ， 每 个 处 理 器 必须 轮流 访问 存储 器 单元 ， 而 存储 器 单元 通 
常 采用 一 个 或 多 个 存储 模块 设计 (如 存储 卡 )， 每 个 存储 模块 可 存储 多 个 字 节 数据 ， 通 常 每 
个 存储 地 址 存储 4B 或 8B。 

存储 单元 的 内 部 组 织 结构 是 由 存储 数据 在 多 个 独立 引用 的 存储 空间 内 的 分 布 方式 所 决定 
的 。 在 一 种 组 织 结 构 中 ， 一 串 连 续 地 址 的 数据 可 能 被 存储 在 一 个 存储 模块 中 ， 在 另 一 种 组 织 
结构 中 ， 则 可 能 被 存储 在 多 个 不 同 的 模块 ， 当 采用 多 片 存储 单元 组 织 结构 时 ， 数 据 甚 至 可 被 
存储 在 多 个 不 同 的 片 中 。 在 7.6 节 中 ， 我 们 将 介绍 多 个 不 同 的 存储 器 存储 数据 的 组 织 结构 ， 
在 剩 下 的 章节 中 ， 术 语 看 储 器 和 主 存 储 器 指 的 是 一 个 或 多 个 存储 器 单元 。 

1. 存储 模块 

一 个 存储 卡 的 内 存 模块 可 以 是 单列 直 插 式 内 存 模块 (SIMM)， 也 可 是 双 列 直 插 式 内 存 
模块 (DIMM)， 但 单列 直 捅 式 内 存 模块 如 今 已 不 常用 。 在 SIMM 中 ， 所 有 的 管 脚 在 存储 卡 
一 面 上 ; DIMM 要 比 SIMM 小 ， 其 管 脚 一 半 在 一 面 ， 一 半 在 另 一 面 。 图 7-13 说 明了 一 个 
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16 x 8 的 SIMM 的 示例 ， 其 包含 8 个 16x 1 iA, WIAR, Be AEE ih ZR 
分 别 和 8 个 存储 器 芯片 相连 接 ， 从 而 可 满足 同时 的 存储 器 读 写 访问 请 求 ， 图 中 的 三 态 缓冲 门 
用 于 避免 未 进行 读 写 请 求 时 从 总 线 方向 输入 的 违规 信号 。 
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7-12 ”使 用 两 个 4x2x1 单元 阵列 的 8x2 SRAM 内 部 组 织 结构 


DIMM ( SODIMM) 外 形 较 小 ， 其 大 小 约 为 普通 SDRAM DIMM 的 一 半 。 对 于 内 存 模 块 
的 其 他 示例 ， 请 参阅 [5]。 具 有 错误 纠正 编码 ( ECC) 功能 的 SDRAM 使 用 海 明 码 来 发 现 和 
纠正 1 位 的 内 存 错误 。 例 如 ， 一 个 64 位 的 ECC SDRAM 存储 模块 使 用 8 个 奇偶 校 验 位 来 校 
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验 64 位 数据 的 正确 性 ， 生 成 一 个 72 位 的 海 明 码 。 


16x 1 16x 1 16x 1 
存储 | d7 存储 “| d6 存储 | 40 
芯片 芯片 5 芯 
8 位 宽 双向 数据 总 线 
地 址 ”控制 
总 线 Be 
图 7-13 16x8 单 列 直 插 式 内 存 模块 
2. 存储 单元 


计算 机 通常 有 几 个 内 存 扩 展 槽 供 安 装 一 个 或 多 个 内 存 卡 ， 每 个 内 存 槽 可 安装 一 个 内 存 
Fo BRERA 2GB 和 4GB 两 种 DIMM 可 用 ; 可 用 4 个 2GB DIMM 或 2 个 4GB DIMM 来 设 
计 成 一 个 1G x 64 的 存储 单元 。 具 体 采 用 哪 种 方式 由 计算 机 上 可 用 的 内 存 扩 展 槽 的 数量 决定 。 

设计 一 个 64x4 (32B) 的 存储 单元 ， 要 求 使 用 16 x 4 的 存储 模块 ， 存 储 模块 
使 用 16 x 1 的 存储 芯片 。 

解 : 图 7-14 中 展示 了 64x4 存 储 单元 的 逻辑 视图 和 框图 ， 存 储 单元 有 6 位 地 址 信和 号 
线 ， 标 记 为 a; 到 a。， 有 4 位 数据 信号 线 ， 标 记 为 d: 到 qo。 存储 单元 需要 4 (64/16) 个 存储 
模块 来 存储 数据 ， 每 个 存储 模块 占用 1/4 地 址 空间 。6 位 地 址 信号 线 中 ， 有 两 位 用 于 确定 将 
要 执行 读 写 操作 的 目标 存储 模块 ， 剩 下 的 4 位 用 于 确定 在 已 选择 的 存储 模块 中 的 4 位 的 目 
标 单元 。 例 如 ， 地 址 信号 中 的 高 两 位 as 和 a, 可 将 地 址 空间 分 割 为 4 块 ， 每 块 大 小 为 16， 如 
图 7-14a 所 示 。 在 每 一 范围 内 的 数据 存储 在 对 应 的 存储 器 模块 中 。 
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”a ) 逻辑 视 加 b ) 框图 
图 7-14 64x4 存 储 单元 : a) 划分 为 4 个 数据 区 的 逻辑 视图 ; b) 框图 


存储 单元 需 使 用 一 个 2-4 译 码 器 来 转换 地 址 as 和 ay 为 4 个 芯片 使 能 信号 ceo 到 ces, 
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每 个 使 能 信号 用 于 使 能 对 应 的 存储 模块 ， 如 图 7-15 所 示 ， 该 译 码 器 只 能 在 主 心 片 被 选中 时 
(如 ce) 才 可 被 使 能 。 地 址 信号 a 到 ao 与 剩余 的 控制 总 线 信 号 〈 当 存储 需 使 用 SRAM 时 ， 
控制 信号 为 _we、_oe， 当 使 用 DRAM 或 SDRAM 时 ， 控 制 信 号 为 _ras、_cas、_we、_oe) 
将 用 于 读 写 操作 ， 只 有 使 能 的 存储 模块 才 可 使 用 4 位 的 数据 总 线 传输 数据 。 

图 7-15 展示 了 64 x 4 存储 器 单元 的 内 部 组 织 结 构 ， 其 将 图 7-14a 中 各 范围 内 的 数据 存 
储 在 对 应 的 存储 模块 中 。 其 他 数据 存储 结构 将 在 7.6 TPAR, 


a3..a0 





控制 总 线 
当 采 用 SRAM 时 控制 总 线 为 _ce、_we、_oe 


7-15 ”64 x 4 存储 结构 的 32B 存储 器 


7.5 存储 时 序 


存储 磊 的 时 序 图 精确 地 前 明了 一 个 存储 需 的 交互 协议 。 它 指定 了 SRAM 或 DRAM 的 控 - 
制 信号 以 及 SDRAM 存储 命令 执行 的 时 序 过 程 。 选 中 目标 存储 单元 和 执行 完 一 个 读 写 操作 所 
需要 的 所 有 时 间 叫 作 存储 器 存 取 时 间 。 一 个 存储 周期 包括 存 取 时 间 和 数据 传输 时 间 两 部 分 。 

存储 器 的 存 取 时 间 和 存储 单元 阵列 的 大 小 直接 成 正比 ， 存 储 单元 的 大 小 决定 了 存储 器 心 
中 行 译 码 右 、 列 译 码 需 的 大 小 ， 而 两 个 译 码 器 的 大 小 决定 了 存储 天 激 活 一 行 和 存 取 目 标 单 元 所 
需要 的 时 间 。 此 外 ， 因 为 译 码 器 是 多 级 的 ， 可 能 有 更 长 的 传输 时 延 。 虽 然 存 储 希 单元 、 模 块 、 
芯片 之 间 的 交互 协议 是 相同 的 ,但 是 采用 不 同 存 储 技术 的 存储 絮 之 间 的 交互 协议 并 不 相同 。 


7.5.1 SRAM 
图 7-16 从 存储 器 视角 说 明了 一 个 SRAM 读 操 作 周 期 ， 我 们 也 可 从 CPU 的 视角 来 绘制 
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存储 器 的 时 序 图 ， 关 于 CPU 视角 的 时 序 图 将 在 第 9 章 讨论 。 





-< 一 一 一 数据 传输 时 间 


读 操作 访问 时 间 
一 个 读 周 期 | 
图 7-16 存储 器 视角 的 SRAM 读 周期 


在 存储 器 读 周 期 中 ， 存 储 地 址 将 首先 放置 在 地 址 总 线 上 ， 同 时 或 稍 后 存储 器 _ce 信号 被 选中 。 

_oe 信号 和 ce 信号 共同 控制 一 个 或 多 个 输出 三 态 缓冲 门 (如 图 7-12 )。 为 了 最 小 化 存 
储 器 读 操 作 周 期 时 间 ，_oe 信号 可 在 ce 信号 被 选中 后 的 最 长 时 间 (maximum time) 范围 内 
的 任意 时 间 被 选中 ， 如 时 序 图 中 所 示 。 当 存储 单元 阵列 中 的 数据 可 用 时 ，_oe 信和 号 使 能 ， 从 
而 允许 数据 输出 到 数据 总 线 上 ; 因为 ce 信号 与 输出 三 态 缓冲 器 和 列 译 码 器 相关 ， 将 在 最 后 
解 使 能 ， 从 而 关闭 输出 三 态 缓冲 门 和 列 译 码 器 。 

存储 器 的 写 周 期 和 读 周 期 相似 ， 但 有 不 同 之 处 ， 需 存储 的 数据 必须 要 在 _ce 信号 选中 
同时 或 者 在 _we 信和 号 选中 后 的 最 长 时 间 内 放置 到 数据 总 线 上 ， 使 得 占用 数据 总 线 时 间 最 少 。 
图 7-17 说 明了 SRAM 写 周 期 时 序 过 程 。 





XXXXXXXX / 
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Tr a a a! 
写 操作 访问 时 间 


一 个 写 周期 | 290 
图 7-17 存储 器 视角 的 SRAM 写 周 期 291 
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存储 器 的 存储 周期 由 CPU 启动 ， 通 常 需要 多 个 CPU 时 钟 周 期 来 完成 。 


7.5.2 DRAM 


E DRAM 的 读 写 周期 中 ， 目 标 存储 单元 地 址 需要 被 分 割 为 行 地 址 和 列 地 址 两 部 分 ， 通 
过 地 址 总 线 传送 给 存储 器 。 这 降低 了 地 址 总 线 的 宽度 ， 并 且 降 低 了 完成 一 次 突 发 访问 所 需要 
的 所 有 时 间 。 当 进行 短 突 发 数据 访问 并 且 一 行 已 激活 时 ， 多 个 列 地 址 将 顺序 执行 从 而 快速 完 
成 多 个 数据 的 读 写 操作 。 图 7-18 从 存储 器 视角 说 明了 DRAM 读 周 期 和 写 周期 。 





存 取 时 间 时 间 
a ) 读 周期 





存 取 时 间 


b ) 写 周 期 
图 7-18 存储 器 视角 的 DRAM 读 / 写 周期 : a) ZAR; b) SAR 
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DRAM 的 读 写 周 期 从 选中 _ce 信号 和 输入 行 地 址 开始 。 接 下 来 ，_ras 信和 号 将 被 选中 从 
而 使 得 DRAM 可 加 载 行 地 址 到 一 个 内 部 寄存 器 中 并 激活 该 行 。 然 后 输入 列 地 址 并 选中 cas, 
这 将 选中 一 个 或 多 个 位 于 激活 行 上 的 目标 单元 ，_oe 信号 和 _we 信号 的 功能 与 之 前 SRAM 
中 描述 的 _we、_oe 相同 。 

DRAM 除了 读 写 周期 之 外 ， 还 需要 一 个 刷新 周期 来 刷新 每 个 存储 单元 中 的 内 容 。 列 先 
于 行 的 刷新 周期 要 求 cas 信号 选中 在 _ras 信号 选中 之 前 进行 ， 从 而 将 DRAM 切换 为 刷新 模 
式 。DRAM 用 于 构建 采用 了 具有 简化 计算 机 特性 的 标准 通信 协议 的 SDRAM， 因 此 ， 这 也 有 
助 于 降低 计算 机 的 成 本 。 


7.5.3 SDRAM 


SDRAM 除了 采用 的 标准 通信 协议 之 外 ， 还 实现 了 不 同 的 刷新 周期 ， 包 括 正常 模式 和 部 
分 省 电 模 式 [3]。 一 个 SDRAM 存储 周期 从 一 条 行 激 活命 令 开 始 ， 之 后 有 一 条 或 多 条 针对 该 
行 存储 单元 的 读 写 命令 。 

图 7-19 说 明了 在 假设 突 发 访问 大 小 为 4 时 (大 小 为 4 指 的 是 每 次 突 发 访问 存 取 4 个 存 
储 单元 的 数据 ) 进行 两 个 连续 读 周 期 的 SDRAM 时 序 图 ， 图 中 假定 一 个 SDRAM 总 线 时 钟 周 
期 可 读 入 一 个 突 发 访问 大 小 ， 需 要 3 个 时 钟 周 期 来 激活 一 行 ， 需 要 2 个 时 钟 周 期 来 完成 存 取 
操作 ， 每 个 数据 需要 一 个 时 钟 周 期 从 SDRAM 和 输出。 此外， 因为 SDRAM 采用 管道 化 的 数 
据 通路 ， 可 以 在 前 一 个 数据 传输 出 SDRAM 的 同时 开始 同一 行 的 下 一 个 读 周 期 。 





| 数据 | 数据 | 数据 

. > ， 输出 输出 输出 

1 个 时 钟 周期 | 行 激活 ( 3 个 时 钟 周期 ) ” 读 ( 2 个 时 钟 周 期 ) 二 一 一 第 一 不 突 发 数据 一 一 一 > tee 

7-19 ”进行 两 个 连续 读 周期 的 4 位 突 发 访问 的 SDRAM 时 序 图 ， 设 定 一 个 SDRAM 总 线 时 钟 周期 
可 读 入 一 个 突 发 访问 ， 需 要 3 个 时 钟 周期 来 激活 一 行 ， 需 要 2 个 时 钟 周期 来 完成 存 取 操作 


特别 的 ， 在 图 7-19 中 ,4 位 的 突 发 访问 在 第 1 个 时 钟 周期 就 出 现在 总 线 上 (REV 
数据 的 类 型 未 说 明 )， 在 第 2 个 时 钟 周 期 ， 执 行 一 条 行 激活 命令 ， 行 激活 命令 需要 行 地 址 来 
明确 激活 的 是 哪 一 行 。 在 第 4 个 时 钟 周期 末 ， 该 行 被 激活 。 第 5 个 时 钟 周期 ， 地 址 总 线 输入 
列 地 址 x 并 执行 读 命令 ， 该 行 中 列 地 址 x 到 x + 3 中 的 数据 将 从 第 7 个 时 钟 周期 及 其 之 后 的 
3 个 时 钟 周 期 依次 出 现在 数据 总 线 上 ， 列 地 址 x + 1 到 x+ 3 是 由 存储 器 内 部 自动 生成 的 。 第 
2 个 读 命令 (从 同一 行 读 取 ) 是 在 第 9 个 时 钟 周期 执行 ， 其 4 个 突 发 数据 将 从 第 11 个 时 钟 周 
期 开始 通过 列 地 址 y 到 y+3 输出 到 数据 总 线 上 。 图 中 仅 绘制 了 地 址 中 数据 的 读 取 过 程 。 

图 7-20 说 明了 在 突 发 访问 大 小 为 1 时 ， 在 同一 行 中 进行 2 个 连续 读 周 期 再 进行 2 个 连 
续 写 周期 的 SDRAM 时 序 图 。 因 为 SDRAM 的 数据 通路 是 管道 化 的 ， 在 突 发 访问 大 小 为 1 
时 执行 连续 的 读 命令 和 写 命令 可 以 每 个 时 钟 周期 执行 一 次 。 
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| 数据 | 数据 | 数据 数据 
| | | | ”输出 输出 | -输入 输入 


1 个 时 钟 周期 行 激活 ( 3 个 时 钟 周 期 ) 第 1 个 读 ( 2 个 时 钟 周 期 ) 





第 2 个 读 ( 2 个 时 钟 周期 ) 
图 7-20 ” 突 发 访问 大 小 为 1 时， 在 同一 行 中 进行 2 个 连续 读 周期 再 进行 2 个 连续 写 周 期 的 SDRAM 
时 序 图 ， 假 定 每 个 时 钟 周期 进入 一 个 突 发 访问 ， 需 3 个 时 钟 周期 进行 行 激活 ，2 个 时 钟 周期 
完成 读 操 作 或 写 操作 


7.5.4 DDR SDRAM 


DDR SDRAM 对 SDRAM 进行 了 优化 ， 从 而 使 得 其 有 效 带 宽 达 到 了 SDRAM 的 两 倍 。 
Æ DDR SDRAM 中 ， 可 在 每 个 时 钟 的 上 升 沿 和 下 降 沿 进行 数据 传输 。 图 7-21 说 明了 对 同 
一 行进 行 大 小 为 4 的 突 发 访问 时 连续 3 个 读 操 作 的 DDR SDRAM 时 序 图 。 如 图 所 示 ， 在 
SDRAM 中 ， 一 个 读 周期 内 的 4 个 数据 在 两 个 时 钟 周 期 内 传输 完成 ， 而 所 有 的 12 个 数据 在 6 
个 时 钟 周期 内 完成 传输 。 因 此 ，DDR 有 效 提 高 了 存储 器 峰值 带宽 一 倍 ， 其 中 ， 存 储 器 峰值 
带宽 指 的 是 在 存储 器 中 数据 总 线 被 100% 使 用 时 的 最 大 存储 器 带宽 。 











qe 
第 1 组 4 个 突 发 第 2 组 4 个 突 发 ”第 3 组 4 个 突 发 
访问 数据 访问 数据 访问 数据 


7-21 突 发 访问 大 小 为 4 时， 在 同一 行 中 进行 连续 3 个 读 周期 的 DDR SDRAM 时 序 图 ， 假 定 每 个 时 
钟 周期 进入 一 个 突 发 访问 ， 需 3 个 时 钟 周 期 进行 行 激活 ，2 个 时 钟 周期 完成 读 操作 或 写 操作 


7.6 存储 器 体系 结构 


存储 器 体系 结构 指 的 是 数据 以 多 种 方式 存储 在 (分 布 在 ) 两 个 或 更 多 的 存储 器 单元 ， 两 
个 或 更 多 个 存储 器 模块 ， 或 者 两 个 或 更 多 个 存储 器 片 (单元 阵列 )， 从 而 提升 存储 器 效率 并 
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实现 更 高 的 带宽 。 例 如 ， 在 每 个 处 理 器 与 其 专用 存储 器 单元 连通 的 双 处 理 器 系统 中 ， 如 果 每 
个 处 理 器 访问 的 数据 存储 在 分 配给 该 处 理 器 的 专用 存储 器 单元 中 ， 存 储 系统 将 更 加 高 效 。 此 
外 ， 存 储 在 各 个 存储 器 单元 中 的 数据 可 以 以 多 种 方式 组 织 从 而 优化 并 提升 存储 器 带宽 ， 进 而 
满足 处 理 右 中 的 处 理 融 核心 对 数据 速率 的 要 求 。 


7.6.1 高 位 交叉 存储 

高 位 交叉 存储 技术 是 将 整个 逻辑 存储 空间 分 割 为 两 个 或 多 个 连续 的 数据 区 ， 每 个 数据 
区 中 的 数据 存储 在 独立 分 开 的 存储 模块 或 存储 单元 中 。 例 如 ， 考 虑 1GB 大 小 的 两 路 高 位 交 
又 存储 数据 被 存储 在 两 个 存储 单元 中 ， 如 图 7-22 所 示 ， 在 这 个 例子 中 ， 数 据 区 是 通过 数据 


的 字 节 地 址 来 分 割 的 ， 分 成 字 节 地 址 0 ~ 512M -1 (高 一 半 ， 从 地 址 0 开始 ) 512M ~ 
1G -1 ( 低 一 半 )。 - 


0 号 存储 单元 ( 512MB ) 


pe ”从 地 址 0 ~ 512M-1 的 存储 器 内 容 
\ ( 高 一 半 


从 地 址 512M ~ 1G-1 的 存储 器 内 容 
( 低 一 半 ) 





1GB 存 储 地 址 空间 1 号 存储 单元 (512MB ) 
7-22 采用 2 路 高 位 交叉 存储 方式 的 1GB 数据 


在 一 个 路 高 位 交 又 存储 中 ,使 用 m 个 最 高 地 址 位 将 逻辑 存储 空间 划分 为 2” (2” = 月 
个 区 域 。 以 图 7-15 中 的 存储 器 组 织 为 例 ， 在 图 中 ，64 x 4 存储 单元 组 织 结构 的 32B 存储 
空间 采用 4 路 高 位 交叉 存储 方式 ， 划 分 为 4 个 区 域 ， 依 次 为 字 节 地 址 0 ~ 15 (区 域 0)、 
16 ~ 31 (区 域 1)、32 ~ 47 (区 域 2)、48 ~ 63 (区 域 3 )。 正 如 图 中 所 示 ， 每 个 区 域 中 的 数 
据 被 存储 在 对 应 的 独立 分 开 的 存储 模块 中 。 


7.6.2 低位 交叉 存储 


考虑 一 个 多 存储 片 存储 器 组 织 结构 。 低 位 交叉 存储 ， 通 常 也 被 叫 作 简单 交 双 存储， 将 
第 一 个 数据 存储 在 一 个 存储 片 中 ， 将 下 一 个 顺序 存 取 数据 放 在 其 他 存储 片 中 ， 依 此 类 推 ， 周 
而 复 始 。 例 如 ， 假 设 每 一 个 存储 的 数据 是 一 个 4B 的 字 ， 使 用 4 路 低位 交叉 存储 方式 ， 存 储 
字 0 到 存储 片 0 中 ， 存 储 字 1 到 存储 片 1 中 ， 存 储 字 2 到 存储 片 2 中 ， 存 储 字 3 到 存储 片 
3 中， 周而复始 ， 存 储 字 4 到 存储 片 0 中 ， 字 5 到 存储 片 1 中 ， 依 此 类 推 。 图 7-23 说 明了 
一 个 采用 4 路 低位 交叉 存储 方式 的 组 织 成 128M x 4B 结构 的 512MB 存储 空间 ， 在 这 个 示例 
H, 每 4 个 连续 的 4B 字 存 储 在 4 个 不 同 的 存储 片 中 。 

图 7-24 说 明了 和 采用 低位 交叉 数据 存储 方式 的 两 片 DDR SDRAM 时 序 图 ， 在 这 个 示 
例 中 ， 相 同时 间 内 数据 存储 的 数量 从 图 7-21 中 的 4 个 变 为 图 7-24 中 的 8 个 ， 在 没有 改变 
SDRAM 内 部 时 钟 频率 的 情况 下 ， 有 效 提升 了 存储 器 有 效 带 宽 1 倍 。2 倍 的 数据 量 必须 使 用 
2 倍 位 宽 的 数据 总 线 或 2 倍 频率 的 时 钟 来 完成 数据 的 传输 。 这 是 DDR2、DDR3 等 SDRAM 
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的 设计 中 ， 访 问 的 数据 倍增 的 原因 。 


| _ 字 地 址 “| 内容 (4B) _ 





wak: gg LL GK KNOT 


HL 一 > dg 
个 个 
1 个 时 钟 周期 “ 行 激活 ( 3 个 时 钟 周期 】 。 读 ( 2 个 时 钟 周期 ) = See peel 
(Fe CH sl ERR 
来 传输 更 多 数据 


图 7-24 采用 低位 交叉 数据 存储 方式 的 两 片 DDR SDRAM 时 序 图 ， 假 定 一 个 时 钟 周期 进入 一 个 突 发 
访问 ， 需 3 个 时 钟 周期 激活 一 行 ，2 个 时 钟 周期 完成 读 写 访 问 


低位 交叉 存储 方式 也 被 用 于 存储 模块 中 来 进一步 提升 存储 器 带宽 。 例 如 ， 考 虑 一 个 具有 
2 个 存储 模块 、 采 用 2 位 低位 交叉 存储 方式 的 存储 单元 ， 此 外 ， 假 定 每 个 存储 模块 采用 2 个 
存储 片 的 DDR SDRAM (如 DDR2 ) 芯片 。 在 这 个 示例 中 ， 存储 单 元 可 传输 的 数据 是 图 7-24 
中 的 2 倍 。 这 意味 着 ， 每 个 SDRAM 时 钟 周 期 中 每 个 存储 模块 可 传输 4 个 数据 ，2 个 在 上 升 
沿 (zx 和 x+1)，2 个 在 下 降 沿 (x + 2 和 x+3)。 存 储 单元 将 每 个 时 钟 周期 内 传输 8 个 数据 
(每 个 存储 模块 传输 4 个 )， 因 此 每 个 存储 模块 的 带宽 是 之 前 的 两 倍 。 


7.6.3 ”多 通道 


多 通道 存储 融 是 指 存储 器 架构 中 存储 器 与 系统 其 他 部 分 有 两 个 或 多 个 通信 信道 [6, 7]。 
例如 ， 图 7-25 说 明了 一 个 具有 CPU 和 数字 信号 处 理 器 (DSP) 的 双 系 统 与 一 个 单 通道 或 
双 通 道 的 存储 融通 信 的 架构 。 包 含 一 系列 总 线 或 点 对 点 连 线 (将 在 第 9 章 讨 论 ) 的 互联 网 
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络 被 用 于 连接 CPU. DSP 和 存储 右 ， 在 这 个 例子 中 ， 每 个 通道 可 能 用 于 服务 不 同 的 处 理 咒 
单元 。 





图 7-25 单 通 道 存 储 器 架构 和 双 通 道 存 储 器 架构 


在 一 个 单 通道 体系 结构 中 ，CPU 和 DSP 必须 交替 访问 存储 器 ， 而 在 一 个 双 通 道 体 系 结 
构 中 ， 两 个 处 理 器 可 同时 访问 存储 器 ， 其 中 每 个 处 理 器 通过 不 同 的 通道 访问 存储 器 ， 条 件 是 
每 个 处 理 器 需要 的 数据 存储 在 不 同 的 存储 单元 中 。 

一 个 多 通道 存储 单元 ， 如 果 以 更 大 的 突 发 访问 大 小 来 存 取 同 样 的 数据 ， 存 储 效率 将 更 
高 。 换 句 话 说， 在 大 多 数据 并 不 是 向 一 个 单独 的 目的 存储 模块 存储 的 情况 下 ， 传 输 更 大 的 突 
发 访问 时 ， 每 个 通道 都 可 用 于 连续 传输 数据 从 而 提升 存储 器 效率 。 这 使 得 多 通道 存储 器 架构 
更 加 适合 需要 连续 传输 数据 的 实时 系统 。 

考虑 一 个 64 位 单 通道 和 一 个 32 位 双 通 道 存 储 器 结构 ， 如 图 7-25 所 示 。 假 定 
存储 器 单元 设计 使 用 DDR SDRAM 模块 。 我 们 需 确定 当 CPU 在 同一 行 中 使 用 4 个 独立 的 突 
发 读 周期 时 访问 128B 数据 时 每 个 通道 的 效率 ， 其 中 每 次 读 32B 数据 。 

解 : 公式 (7-1) 说 明了 存储 器 的 效率 

数据 总 线 时 钟 周 期 数 
RCM) = CARET 

AS MAGE FF a a PA] 32B 的 数据 ， 突 发 访问 的 大 小 必须 是 4 ( 32B/64b)， 如 图 
7-21 所 示 。 在 第 一 个 数据 出 现在 数据 总 线 上 之 前 需要 6 个 时 钟 周 期 ， 每 读 32B 数据 需要 2 
个 周期 ， 共 需要 8 (2x4) 个 周期 区 访问 128B (4x32B) 数据 ， 因 此 ， 存 储 器 效率 为 57%， 
计算 如 下 : 


CT-i) 


8 个 时 钟 周期 o apen 
ME single-channel = (6+8) 个 时 钟 周期 二 0.57 K 57% 


另 一 方面 ， 为 了 使 用 双 通 道 存 储 器 中 的 一 个 通道 来 访问 32B 数据 ， 突 发 访问 的 大 小 必 
须 为 8 (32B/32b)。 正 如 在 一 个 单 通 道 存 储 系 统 中 ， 在 第 一 个 数据 出 现在 数据 总 线 上 之 前 也 
需要 6 个 时 钟 周期 ， 每 读 32B 数据 需要 4 个 时 钟 周 期 ， 访 问 128B 数据 共 需 要 16 (4x4) 时 
钟 周期 ， 在 这 个 示例 中 ， 通 道 效 率 增加 到 73%， 计算 如 下 : 


”16 个 数据 时 钟 周期 ee 
ME icma = (6 + 16) 总 时 钟 周期 = 0. 22I 或 73% 加 
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7.7 设计 实例 ， 多 处 理 器 存储 结构 


正如 前 面 所 讨论 的 ， 一 方面 ， 低 位 交叉 存储 通过 并 行 访问 多 个 存储 片 或 多 个 存储 模块 从 
而 增加 存储 器 带宽 。 另 一 方面 ， 高 位 交叉 存储 用 于 分 割 存 储 空间 为 多 个 区 域 并 存储 每 个 区 域 
中 的 数据 到 独立 分 开 的 存储 模块 或 存储 单元 中 。 


7.7.1 UMA 5 NUMA 


图 7-26a 中 展示 了 一 个 不 统一 存储 器 访问 (NUMA) 多 处 理 器 系统 体系 结构 。 在 这 个 示 
例 中 ， 每 个 处 理 器 都 分 配 了 单独 的 存储 单元 ， 创 建 一 个 处 理 节 点 。 一 个 互连网 络 连接 了 各 个 
处 理 节 点 ， 生 成 一 个 共享 的 存储 器 系统 。 

Æ NUMA 系统 中 ， 每 个 处 理 器 与 它 的 本 地 存储 单元 (简单 的 本 地 存储 器 ) 距离 更 短 ， 
而 与 他 远程 存储 器 〈 另 一 个 处 理 器 的 本 地 存储 器 ) 距离 更 长 。 因 此 ， 一 个 存储 器 读 写 周期 的 
时 延 ， 即 存储 器 延迟 ， 在 存储 器 从 本 地 存储 器 中 访问 时 比 正常 情况 要 短 ; 而 当 存 储 器 从 远程 
存储 器 中 访问 时 存储 器 延迟 要 比 正 常情 况 更 长 。 因 此 ， 在 一 个 NUMA 系统 中 的 读 写 存储 器 
周期 是 不 一 致 的 ， 有 时 候 短 ， 短 到 几 个 时 钟 周期 ， 有 时 候 长 ， 长 到 需要 许多 时 钟 周期 。 

另 一 方面 ， 在 一 个 统一 存储 器 访问 (UMA) 结构 的 多 处 理 器 系统 中 (图 7-26b)， 所 有 
的 处 理 硕 以 多 通道 的 方式 访问 一 个 单独 的 存储 单元 。 与 NUMA 存储 器 系统 不 同 的 是 ， 不 同 
的 处 理 器 在 访问 存储 器 时 ， 存 储 器 延迟 没有 太 大 变化 ,存储器 延迟 基本 相同 (平均 统一 的 )。 
而 且 ， 在 一 个 包含 NUMA 和 UMA 的 系统 中 ， 存 储 单元 可 以 采用 低位 交叉 存储 方式 从 而 更 
好 地 服务 在 每 个 处 理 器 中 的 处 理 器 核心 。 








“连接 共享 的 本 地 存储 单元 的 互连网 络 


P: 处 理 器 
M: 存 储 单元 
a) NUMA 结 构 b ) 一 个 UMA 结 构 
7-26 NUMA 和 UMA 系统 结构 : a) 使 用 共享 的 但 本 地 分 配 存储 单元 的 NUMA 系统 结构 ; b) 使 用 
共享 的 全 局 存储 单元 的 UMA 系统 结构 


例如 ， 美 国 硅 图 公司 的 Altix 4700 系统 是 一 个 NUMA 系统 ， 可 支持 512 ~ 1024 个 处 理 
器 ， 并 支持 高 达 128TB 的 共享 存储 器 [8]。 然 而 ， 今 天 常用 的 小 型 系统 的 架构 多 是 NUMA， 
比如 使 用 双核 处 理 器 的 AMD Quad FX 平台 [9]。 


7.7.2 NUMA 应 用 


在 一 个 NUMA 系统 中 ， 当 使 用 两 个 或 多 个 处 理 器 协作 处 理 完 成 一 个 任务 时 ， 低 位 交叉 
仓储 方式 也 可 用 于 两 个 或 多 个 存储 单元 ， 称 为 存储 器 节点 交叉 存储 。 例 如 ， 如 果 有 两 个 处 理 
髓 协作 执行 一 个 图 像 处 理 任务 ， 其 中 一 个 处 理 器 产生 中 间 结 果 供 第 二 个 处 理 器 处 理 ， 这 将 有 
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利于 第 一 个 处 理 器 (PO) 从 他 的 本 地 存储 单元 (M0 ) 中 读 取 图 像 数 据 ， 但 不 利于 第 二 个 处 理 
器 (P1) 写 和 中间 结果 给 其 存储 器 单元 (M1 )。 这 一 矛盾 可 以 通过 创建 结构 来 解决 ， 例 如 创 
建 一 个 结构 数组 ， 每 个 结构 中 包含 2 个 数据 。 例 如 ， 考 虑 下 面 的 程序 代码 ， 代 码 中 定义 了 一 
个 样 例 数据 结构 命名 为 “ foo t”， 该 结构 体 中 包含 元 素 a 和 元 素 bo BE P0 操作 元 素 a， 生 
RILA b, PI 修改 元 素 5。 使 用 存储 器 节点 交叉 存储 方式 时 ， 所 有 的 元 素 a 将 被 存储 在 MO 
中 ， 而 元 素 将 被 存储 在 M1 o 


typedef struct{ 
int a; 
int b; 

foo t; 

Main () 

{ 


foo t array[100] [100]; 


} 


在 这 个 示例 中 ，P0 用 更 短 的 时 延 来 从 其 本 地 存储 单元 (M0 ) 中 读 取 图 像 元 素 a， 用 更 
长 的 时 延 来 将 计算 好 的 图 像 数 据 结果 b 存储 到 P1 的 本 地 存储 器 单元 (M1 ) 中 ,之 后 P1 将 
用 更 少 的 时 延 来 从 其 本 地 存储 单元 中 读 取 图 像 数 据 5。| 我 们 将 在 第 10 章 看 到 ，P1 可 以 花 
销 更 长 的 时 延 从 PO 的 高 速 缓 冲 存 储 器 (cache) 中 访问 PO 刚 计算 出 的 元 素 bo Am, HT 
单 起 见 ， 假 定 了 P0 用 更 长 的 时 延 将 b 全 部 写 人 M1 中 ，P1 使 用 更 短 的 时 延 从 M1 PERE 
部 的 计算 结果 b。 关 于 时 延 的 更 精确 的 分 析 需 要 一 个 程序 执行 的 仿真 环境 。 此 外 ， 由 于 使 用 
了 高 速 缓 冲 存储 器 ， 这 很 可 能 花 销 更 长 的 存储 器 时 延 来 写 入 全 部 计算 好 的 数据 结果 45 到 MI 
中 ,大 多 数 情况 下 ， 程 序 将 在 后 台 执 行 而 平均 存储 器 时 延 不 会 增加 。」 一 旦 P0 计算 出 多 个 图 
BRAR bt, PORI PI 将 并 行 操作 (在 同一 时 间 )， 将 花 销 更 少 的 时 延 来 从 它们 各 自 的 本 地 存 
储 单元 中 访 存 图 像 数 据 。 因 此 ， 这 将 导致 在 NUMA 系统 中 程序 执行 时 间 的 减少 。 另 一 方面 ， 
在 一 个 等 价 的 UMA 系统 中 ，P0 Al Pl 都 将 访问 同一 个 存储 单元 ， 对 于 这 一 程序 的 存储 器 平 
均 时 延 将 相应 的 延长 ， 继 而 将 增加 程序 在 UMA 系统 中 执行 的 总 时 间 。 


7.8 HDL 模型 


例 7-5 描述 了 一 个 存储 单元 的 行为 级 和 结构 级 组 合 的 模型 ， 存 储 模块 使 用 SRAM 芯片 
建 模 。 存 储 单元 使 用 高 位 交叉 存储 方式 ， 与 图 7-15 中 展示 的 相似 。SRAM 芯片 HDL 模型 使 
用 双向 数据 总 线 ， 并 使 用 一 个 简化 的 存储 器 交互 协议 ， 这 指 的 是 存储 器 读 / 写 控制 信号 ， 当 
选中 或 未 选中 时 ， 都 是 同时 进行 的 。 关 于 协议 的 更 精确 的 模型 需要 使 用 更 精确 的 时 序 来 生成 
存储 器 控制 信号 ， 正 如 图 7-16 和 图 7-17 中 所 示 。 这 将 要 求 存储 器 芯片 (图 7-10 ) 使 用 原理 
图 设计 工具 建 模 或 者 使 用 包含 时 序 信 号 延 时 的 HDL 模型 (结构 的 或 行为 的 )。 

使 用 4 个 16 x 8 存储 模块 设计 并 仿真 一 个 64 x 8 存储 单元 ，16 x 8 的 存储 模块 
是 由 2 个 有 双 回 数据 线 的 16 x4 SRAM 心 片 构 成 。 使 用 关键 字 “ inout” 来 声明 变量 data 为 
WH GEA. TERRE SRAM 芯片 模型 中 ， 当 存储 需 不 处 于 读 模 式 时 ， 赋 值 语句 将 使 得 data 
高 阻抗 (Z)。 当 向 存储 单元 中 写 数据 时 ( ce=0, we=0， oe=1 )，data 将 作为 输入 ， 当 从 
存储 单元 中 读数 据 时 ( ce=0, we=1， oe=0), data 将 通过 4 位 的 地 址 线 adrs 来 设置 为 存 
储 占 中 的 内 容 。 
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HDL 模型 : 


‘include "ram16x8.v" 
module ram64x8 ( 
input [5:0] adrs, 
inout [7:0] data, 
input ce, _we, _oe 
E 

reg [3:0] _cee; 


raml6x8 ul(adrs[3:0], data, cee[0], we, _oe); 
raml6x8 u2(adrs[3:0], data, _cee[1], _we, oe); 
raml6x8 u3(adrs[3:0], data, _cee[2], _we, _oe); 
raml6x8 u4(adrs[3:0], data, _cee[3], we, _oe); 


//2-to-4 decode 
always@ (*) 


begin 
if(_ce == 0) 
case (adrs [5:4] ) 
O: cee = 4'b1110; 
1: cee = 4'b1101; 
2: cee = 4'p1011; 
3: cee = 4'b0l111; 
default: cee = 4'hf; 
endcase 
else 
_cee = 4'hf; 
end 
endmodule 


‘include "ram16x4.v" 
module ram16x8 ( 
input [3:0] adrs, 
inout [7:0] data, 
input _ce, we, oe 


de 


raml6x4 ul(adrs, data[7:4], _ce, _we, _oe); 
raml6x4 u2(adrs, data[3:0], ce, we, oe); 
endmodule 


module ram16x4 ( 
input [3:0] adrs, 
inout [3:0] data, 
input ce, we, oe 
) ; 
reg [0:15] [3:0] mem; // 16 X 4 RAM 


assign data = ~ ce & we & ~_oe ? mem[adrs] : 


always@ (*) 
begin 
if(_ce = 0) 
if (_we == 0 && _oe == 1) 


mem [adrs] = data; 


4'hz; 
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end 
endmodule 


仿真 测试 平台 : 

仿真 测试 模型 已 经 给 出 ， 在 这 个 模型 中 ， 当 存储 单元 在 写 操 作 (_ce=0，_we=0， 
_0e=1 ) 过 程 中 ，assign 语句 将 用 来 将 命名 为 content 的 8 位 数据 放置 到 双向 数据 总 线 上 。 念 
真 了 4 种 测试 样 例 : 先进 行 两 个 存储 器 写 周 期 再 进行 两 个 存储 器 读 周期 。 测 试 向 量 仿真 了 简 
化 的 存储 器 读 / 写 周期 。 写 周期 从 一 个 目标 地 址 adrs、 一 个 数据 变量 content 以 及 控制 写 操 
作 信 和 号 的 使 能 开始 ， 写 控制 信号 将 在 写 周 期 的 末尾 进行 解 使 能 。 读 周期 从 目标 地 址 adrs、 读 
控制 信号 的 使 能 开始 ， 读 控制 信号 将 在 读 周期 末尾 解 使 能 。 

这 类 似 于 CPU 在 执行 中 加 载 、 存 储 指令 时 访问 存储 器 。 写 周期 以 执行 一 个 存储 指令 为 
开始 ， 存 储 指令 将 提供 一 个 存储 器 地 址 和 一 个 将 存储 到 存储 右 的 值 (如 寄存 髓 内 容 )。 读 周期 
以 执行 一 个 加 载 指令 为 开始 ， 加 载 指令 将 提供 一 个 存储 器 地 址 并 存储 从 存储 器 中 取出 的 值 到 
一 个 寄存 器 中 。 因 为 CPU 也 会 执行 算术 指令 以 及 其 他 类 型 的 指令 ， 故 而 CPU 不 会 一 直 访 问 
存储 器 ， 在 测试 平台 中 ， 这 将 通过 在 存储 器 读 / 写 周 期 之 间 添 加 随意 大 小 的 延 时 来 仿真 实现 。 

‘include "ram64x8.v" 

module ram64x8test () ; 

reg [5:0] adrs; 

reg [7:0] content; 

reg ce, we, oe; 

wire [7:0] data; 

assign data = ~ ce & ~_we & Oe ? content : 8'hz; 

ram64x8 ul(adrs, data, _ce, we, _0e); 

initial begin 

Smonitor ("%4d: adrs = th _ce = tb we = %b oe = $b data = 

th", $time, adrs, _ce, _we, _oe, data); 

//two memory writes 

adrs = 6'b001111; //memory module 0 

content = 8'haa; //data as content 

_ce = 0; _we = 0; oe = 1; //begin a write cycle 

#10 

_ce = 1; _we = 1; _oe = 1; //end a write cycle 

#50 //some delay 

adrs = 6'b011111; //memory module 1 

content = 8'hbb; 

_ce = 0; _we = 0; _ce = 1; 

#10 


#40 

//two memory reads 

adrs = 6'b001111; 

ce = 0; we = 1; oe = 0; //begin a read cycle 
#10 

_ce = 1; _we = 1; oe = 1; //end a read cycle 
#60 
adrs = 6'b011111; 


ce = 0; we=1; _ce = 0; 
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#10 

Ce =1; we=1; _oe = l; 
#30 

Sfinish; 

end 

endmodule 

仿真 结果 : 


正如 所 预期 的 那样 ， 命 名 为 data 的 存储 器 数据 线 在 存储 器 不 被 访问 时 将 变 为 高 阻抗 (Z) 


Chronologic VCS simulator copyright 1991-2009 

Contains Synopsys proprietary information. 

Compiler version D-2009.12; Runtime version D-2009.12; May 
20 22:54 2014 


0: adrs = 0f ce =0 we = 0 _oe = 1 data = aa 
10: adrs = 0f ce=1 _we = 1 _oe = 1 data = zz 
60: adrs = 1f ce=0 we = 0 _oe = 1 data = bb 
70: adrs = 1f ce =1 we = 1 _oe = 1 data = zz 

110: adrs = 0f _ce = 0 _we = 1 _oe = 0 data = aa 
120: adrs = 0f ce=1 _we = 1 _oe = 1 data = zz 
180: adrs = 1f ~ce = 0 we = 1 _oe = 0 data = bb 


190: adrs = 1f ce = 1 we = 1 _oe = 1 data = zz 
Sfinish called from file "ram6é4x8test.v", line 41. 


Sfinish at simulation time 220 
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7.1 在 下 列 两 种 情况 下 ， 绘 制 一 个 128KB 存储 器 的 逻辑 视图 和 框图 ， 并 说 明 存 储 单元 数量 : 
a. 地 址 总 线 宽度 为 1B 
b. 地 址 总 线 宽度 为 2B 
7.2 在 下 列 存储 项 大 小 下 ， 分 别 说 明 其 存储 单元 阵列 结构 
a. 128 x 1 
b. 64 x 2 


7.8 


7.9 


yA 


一 一 人 


0 


7.11 


TAZ 


7.13 


7.14 


AIS 


7.16 
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c. 32x4 
使 用 图 7-8 中 的 SRAM 单元 模型 ， 设 计 一 个 32 x2 的 SRAM (不 用 画 出 每 个 存储 单元 ) 。 
使 用 图 7-8 中 的 单元 模型 ， 设 计 一 个 16 x 4 的 SRAM (不 用 画 出 每 个 存储 单元 )。 
设计 一 个 256B 的 存储 器 ， 要 求 其 组 织 结构 为 128 x 16, 使 用 32 x 4 的 SRAM 芯片 作为 存储 模块 。 
设计 一 个 256B 的 存储 器 ， 要 求 其 组 织 结构 为 128 x 16, 使 用 16 x 8 的 SRAM 芯片 作为 存储 模块 。 
设计 一 个 256B 的 存储 器 ， 要 求 其 组 织 结构 为 128 x 16， 存 储 器 划分 为 位 于 低地 址 的 128B ROM 
空间 和 位 于 高 地 址 的 128B RAM 空间 ， 设 计 存 储 器 时 使 用 64 x 8 的 ROM 芯片 和 32x8 的 SRAM 
芯片 。 
研究 以 下 存储 器 技术 并 以 此 写 一 篇 小 论文 
a. Rambus RDRAM 
b. Rambus XDR 
c. Rambus XDR2 — 
d. EDO DRAM 
绘制 一 个 SDRAM 的 时 序 图 ， 其 中 先进 行 一 个 读 周 期 再 进行 一 个 写 周 期 ， 读 写 周期 的 突 发 访问 大 
小 为 4。 假定 需要 1 个 时 钟 周 期 来 进入 1 个 大 小 的 突 发 访问 ， 需 4 个 时 钟 周期 来 激活 一 行 ， 需 要 
3 个 时 钟 周 期 来 完成 一 次 读 或 写 操作 。 
一 个 数据 总 线 宽 度 为 32 位 的 SDRAM， 总 线 的 时 钟 频 率 为 200MHz， 存 储 器 的 峰值 带宽 为 多 少 
MB/s ? 
一 个 数据 总 线 宽度 为 64 位 的 SDRAM， 总 线 的 时 钟 频 率 为 200MHz， 存 储 器 的 峰值 带宽 为 多 少 
MB/s ? 
一 个 数据 总 线 宽 度 为 32 位 的 DDR SDRAM， 总 线 的 时 钟 频率 为 200MHz， 存 储 器 的 峰值 带宽 为 
多 少 MB/s ? 
图 7-19 中 的 SDRAM 时 序 图 中 ， 假 设 有 4 个 存储 器 读 周期 ， 顺 序 如 下 ， 其 中 数据 总 线 宽度 为 
32 位 : 
行 地 址 x， 突 发 大 小 为 4， 列 地 址 xl 和 x2( 共 32B) 
行 地 址 y， 突 发 大 小 为 4， 列 地 址 yl 和)2 (# 32B) 
a. 绘制 其 时 序 图 。 
b. 计算 存储 器 效率 ， 忽 略 行 解 激活 消耗 的 时 间 。 
7-21 中 的 DDR SDRAM 时 序 图 中 ， 假 设 有 4 个 存储 器 读 周 期 ， 顺 序 如 下 ， 其 中 数据 总 线 宽 
度 为 32 位 : 
行 地 址 x， 突 发 大 小 为 4， 列 地 址 x1 和 x2 ( 共 32B) 
行 地 址 y， 突 发 大 小 为 4， 列 地 址 yl 和 y2 (# 32B) 
a. 绘制 其 时 序 图 。 
b. 计算 存储 器 效率 ， 忽 略 行 解 激活 消耗 的 时 间 。 
一 个 64B 的 存储 单元 ， 由 16 x 8 的 存储 模块 构成 ， 存 储 模 块 间 采 用 高 位 交叉 存储 方式 ， 在 每 
个 存储 模块 中 ， 数 据 采 用 低位 交叉 存储 方式 。 假 设 每 个 存储 模块 由 8 个 SDRAM 芯片 ， 每 个 
SDRAM 芯片 有 4 个 存储 片 并 组 织 成 2x2x 1 的 单元 阵列 。 请 描述 一 个 2 位 的 突 发 访问 数据 是 
如 何 存储 到 存储 单元 中 的 。 
一 个 采用 400MHz 的 DDR SDRAM 存储 模块 的 4 通道 存储 器 ， 当 每 个 通道 为 64 (8B) SEAT, 
存储 器 的 峰值 带宽 为 多 少 ? 
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7.17 一 个 NUMA 系统 ， 其 本 地 存储 器 的 延 时 为 Ir， 远 程 存储 器 的 延 时 为 4r。 如 果 程 序 执行 中 80% 
的 存储 器 访问 在 本 地 而 20% 的 访问 在 远程 存储 器 时 ， 存 储 器 延 时 的 均值 为 多 少 ? 将 结果 与 一 个 
平均 存储 器 延 时 为 4rz 的 UMA 系统 进行 比较 。 

7.18 在 128x32 的 存储 单元 中 ， 采 用 存储 器 节点 交叉 存储 方式 ， 请 描述 类 型 为 “foot t” 的 阵列 
array[8][8]， 其 元 素 是 如 何 物理 的 存储 在 存储 单元 MO 和 M1 中 的 。 

计算 机 安全 

7.19 计算 机 安全 (存储 器 认证 ) : 选择 练习 11.24 和 /或 练习 11.25 (参看 11.9 节 )。 注 意 ， 关 于 高 速 
缓冲 存储 器 的 细节 在 第 10 章 中 。 然 而 ， 在 这 ， 首 先 确 定 存储 器 块 的 数量 ， 然 后 分 配 每 个 块 的 块 
地 址 ， 块 地 址 从 地 址 0 开始 。 
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指令 集体 系 结构 


8.1 简介 


前 面 的 章节 涵盖 数字 化 设计 的 概念 、 技 术 以 及 存储 器 的 组 织 和 架构 。 在 这 一 章 中 ， 我 们 
将 讨论 关于 CPU 数据 通路 的 相关 内 容 。 除 非 明 确 说 明 ， 本 章 中 的 术语 CPU 和 处 理 器 都 指 的 
是 单 核 处 理 器 ， 关 于 多 核 处 理 器 的 内 容 将 在 第 10 章 讨论 。 

指令 集体 系 结构 . (ISA) 指 的 是 执行 程序 的 一 个 单 周 期 、 多 个 周期 或 流水 线 的 数据 通路 。 
在 这 种 情况 下 ， 数 据 通路 能 够 承载 许多 不 同 指令 的 执行 ， 每 条 指令 都 需要 一 组 关于 数据 通路 
的 操作 。 数 据 通 路 从 存储 器 中 获取 一 条 指令 ， 通 过 生成 必要 的 数据 通路 控制 信号 来 对 指令 进 
行 译 码 操作 ， 通 过 执行 对 数据 通路 的 操作 来 执行 指令 。 根 据 这 些 控制 信号 ， 对 数据 通路 的 操 
作 可 能 还 需要 从 存储 器 中 获取 数据 ， 并 将 计算 结果 或 来 自 存 储 器 的 数据 CRA) 存储 CS 
回 ) 到 寄存 器 中 。 寄 存 器 中 的 内 容 可 能 存储 到 存储 器 中 。 

一 般 来 说 ， 每 个 不 同 的 CPU 都 有 一 套 独 特 的 指令 集 。 然 而 ， 英 特 尔 和 AMD 的 一 些 处 
理 需 采用 了 相同 的 指令 集 。 例 如 ，32 位 的 指令 集 系 统 X86 可 在 英特尔 和 AMD 的 处 理 器 上 
执行 。 其 他 知名 的 指令 集 例 子 有 英特尔 的 IA64 ( 安 腾 架 构 )、AMD 的 X64 (64 位 指令 集 )、 
MIPS, Sparc 和 ARM。 虽 然 每 个 指令 集 不 同 ， 但 是 每 个 指令 集中 的 指令 均 可 用 于 开发 任何 
类 型 的 软件 ， 包 括 系 统 软 件 、 单 机 和 线 上 的 应 用 软件 。 

伴随 着 晶体 管 数量 的 增加 ， 现 代 CPU 也 通过 流水 线 技术 和 指令 级 并 行 COLP) 技术 来 提 
升 系统 性 能 ， 正 如 我 们 在 第 1 章 中 初步 探讨 过 的 。 在 这 种 情况 下 ， 流 水 线 的 数据 通路 也 被 称 
为 指令 流水 线 。 当 同时 执行 多 条 指令 时 ， 流 水 线 的 各 级 将 一 直 保持 忙碌 状态 ， 从 而 提升 数据 
通路 的 效率 。 通 过 采用 指令 流水 线 技术 增加 了 指令 吞吐 量 和 每 秒 执行 的 指令 数 ， 并 减少 了 程 
序 的 总 执行 时 间 。 

然而 ， 当 数据 依赖 的 指令 通过 流水 线 时 ， 如 果 必 要 ， 将 需要 额外 的 硬件 来 运行 流水 线 ， 
从 而 确保 不 违背 数据 之 间 的 依赖 关系 。 这 也 将 导致 流水 线 的 效率 降低 ， 除 非 使 用 特定 的 硬件 
并 进行 编译 优化 来 消除 或 降低 这 种 数据 依赖 性 。 

此 外 ， 分 支 指令 也 会 改变 执行 流程 ， 引 入 气泡 也 会 降低 流水 线 效 率 。 然 而 ， 现 代 CPU 
通过 采用 分 支 预测 机 制 来 最 小 化 分 支 指令 带 来 的 影响 。 

随 着 指令 级 并 行 技术 和 指令 流水 线 技 术 的 使 用 ，CPU 可 在 多 个 并 行 化 的 流水 线 中 同时 
执行 多 条 指令 。 哪 些 指 令 可 同时 执行 取决 于 程序 ， 并 且 由 编译 器 ( 即 在 软件 中 ) 静态 或 在 硬 
. 件 中 动态 决定 。 指 令 级 并 行 技 术 也 能 降低 程序 执行 的 总 时 间 。 然 而 ， 如 在 第 1 SEP PARA 
样 ， 程 序 在 每 个 流水 线 周 期 内 ， 只 能 执行 有 限 数量 的 独立 指令 。 此 外 ， 因 为 指令 和 数据 必 
须 来 自 存 储 器 ， 许 多 现代 的 CPU (Aia, ERRER i7) 实现 多 线程 ， 使 它们 在 CPU 中 等 
待 接收 指令 或 数据 时 ， 可 以 切换 到 另 一 个 执行 程序 (线程 )。 虽 然 这 并 不 会 减少 程序 总 的 执 
行 时 间 ， 但 这 有 助 于 提高 处 理 器 的 整体 效率 ， 使 处 理 器 可 执行 更 多 任务 并 减少 处 理 需 的 空闲 
时 间 。 
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在 本 章 中 ， 我 们 先 介绍 一 些 背 景 知 识 ， 并 说 明 不 同 的 指令 集体 系 结构 。 然 后 ， 为 了 更 好 
地 理解 指令 集 和 数据 通路 的 设计 ， 我们 将 讨论 一 个 简单 的 高 级 语言 的 代码 示例 。 在 这 个 示例 
中 ， 将 展示 指令 集 和 单 周期 数据 通路 。 我 们 将 提供 一 个 使 用 硬件 描述 语言 (HDL) 来 描述 的 
单 周 期 数据 通路 。 我 们 将 展示 采用 单 周期 数据 通路 和 流水 线 数据 通路 对 示例 程序 执行 的 模拟 
执行 结果 ， 并 讨论 其 性 能 参数 。 

本 章 最 后 将 介绍 精简 指令 集 计 算 机 (RISC) 结构 及 其 优势 ， 并 介绍 采用 精简 指令 系统 进 
行 编译 器 优化 和 提高 指令 吞吐 量 的 相关 技术 。 特 别 是 我 们 将 通过 示例 来 前 述 增加 流水 线 时 钟 
频率 、 分 支 预测 技术 、 指 令 级 并 行 、 多 线程 等 相关 技术 ， 一 个 关于 多 线程 的 程序 示例 也 同时 
提供 给 大 家 。 


8.1.1 指令 类 型 


处 理 器 通常 按 通 用 编程 要 求 进行 设计 。 然 而 ,为 了 实现 更 好 的 性 能 和 支持 一 些 实时 
应 用 ,计算 机 系统 经 常 需要 使 用 专用 处 理 器 ， 例 如 图 形 处 理 器 (GPU) 和 数字 信号 处 理 
器 ( DSP)。 各 个 专用 处 理 器 都 有 一 组 为 高 效 地 执行 计算 机 图 形 (例如 对 象 的 旋转 )、 信 号 处 
理 (例如 音频 压缩 ) 等 设计 的 指令 集 。DSP 通常 用 于 艇 入 式 系 统 ， 如 手机 和 数码 相机 ， 执 
行 信 号 和 图 像 处 理 等 任务 。 现 代 人 处 理 器 还 可 以 包括 某 些 特殊 用 途 的 指令 ， 如 单 指令 多 数据 
(SIMD)( 第 1 章 ) 指令 集 ， 以 及 英特尔 、AMD 处 理 器 中 与 计算 机 安全 相关 的 指令 。 

执行 算术 运算 和 逻辑 运算 的 指令 通常 被 称 为 数据 操作 指令 ， 用 于 对 数据 进行 计算 操 
作 。 其 他 指令 被 称 为 程序 流 控 制 指 令 ， 如 有 条 件 和 无 条 件 分 支 (或 跳 转 ) 指令 和 数据 移动 
指令 ， 以 及 那些 用 于 读 出 和 写 入 存储 右 的 指令 。 程 序 流 控制 指令 改变 程序 的 执行 路 径 ， 在 
高 级 语言 语句 的 执行 过 程 中 ， 这 些 指令 都 是 必要 的 ， 如 “if-else ”“ for JEI” “while 循环 ” 
和 子 程序 过 程 调用 等 。 后 者 需要 保存 处 理 器 的 返回 地 址 和 状态 〈 即 寄存 器 的 内 容 )， 可 以 
保存 在 处 理 占 内 的 一 组 特殊 寄存 器 中 (例如 Spare 的 寄存 器 窗口 )， 也 可 以 保存 在 存储 需 中 
(例如 存储 器 栈 )。( 预 知 更 多 关于 寄存 融和 窗口 的 相关 内 容 ， 请 参考 第 9 章 的 练习 9.14.) 


8.1.2 程序 翻译 


如 图 8-1 所 示 ， 使 用 高 级 语言 (如 C/C++ 或 Java) 编写 的 软件 程序 被 编译 器 翻译 为 汇 
编 指 令 〈C/C++) 或 字 市 码 〈Java)， 字 节 码 在 程序 运行 时 转换 为 指令 。 汇 编 指令 是 由 其 助 记 
符 定义 的 。 助 记 符 是 一 种 易于 记忆 的 操作 码 (op-code)， 如 加 法 操作 使 用 ADD, 减法 操作 
使 用 SUB。 有 关 助 记 符 和 汇编 语言 规则 的 详细 信息 ， 请 参阅 IEEE 标准 中 的 微 处 理 器 汇编 语 
B [1]. 

IL Ba eat 25 BET Bi ER ES Ot B,C a tL OK ORE SE 
为 二 进 制 数 ， 生 成 一 个 目标 代码 ， 目 标 代 码 存储 在 磁盘 上 的 一 个 文件 中 。 两 个 或 多 个 〈 如 果 
A) 目标 文件 将 被 链接 起 来 生成 一 个 可 执行 文件 (如 Windows 环境 中 的 .exe 文件 )。 当 静态 
库 函 数 在 程序 中 被 调用 时 ， 链 接 程序 将 链接 静态 库 函 数 (如 math) 的 目标 代码 。 此 外 ， 一 个 
程序 也 会 包含 一 些 动态 链接 代码 〈 即 动态 链接 库 )， 动 态 链接 在 程序 执行 时 进行 (未 在 图 8-1 
中 展示 )。 最 后 ， 操 作 系 统 程序 装载 器 将 加 载 可 执行 代码 到 存储 器 中 执行 程序 。 


8.1.3 ”指令 周期 
图 8-2 说 明了 一 个 指令 执行 的 数据 通路 ， 这 一 数据 通路 也 被 称 为 指令 周期 ， 指 令 周 期 分 
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为 取 指令 、 译 码 、 执 行 和 写 回 4 部 分 。 数 据 通 路 可 以 以 单 周 期 、 多 周期 或 流水 线 的 方式 执行 
程序 。 从 指令 存储 器 (IM) 中 取出 指令 ， 从 数据 存储 器 (DM) 中 读 出 或 写 人 数据 。 由 于 用 
于 操作 现代 处 理 器 的 时 钟 频 率 比 同步 动态 随机 读 写 存储 器 (SDRAM) 的 时 钟 频率 高 ， 所 以 
采用 了 静态 随机 读 写 存储 器 (SRAM) 技术 的 高 速 缓冲 存储 器 〈cache) 将 作为 IM 和 DM 的 
主要 部 件 。 程 序 执行 过 程 中 ， 先 从 SDRAM 中 复制 指令 和 数据 ， 并 将 指令 和 数据 传送 到 高 速 
缓冲 存储 器 中 。 高 速 缓冲 存储 器 通过 保存 经 常 执行 的 指令 (例如 循环 操作 ) 和 处 理 器 经 常 访 
问 的 数据 ， 提 升 了 系统 的 整体 性 能 。 关 于 高 速 缓冲 存储 器 的 相关 内 容 将 在 第 10 章 讲述 。 


高 级 语言 程序 
( 如 C/C++ ) 


二 进 制 指令 代码 ( 目标 文件 ) 
( 存储 在 磁盘 上 ) 


可 执行 代码 
( 存储 在 磁盘 上 ) 


可 执行 代码 加 载 到 存储 器 中 


软 硬 件 边界 
从 存储 器 中 读 取 指令 





8-1 基本 程序 翻译 和 执行 过 程 


指令 数据 通路 





图 8-2 包含 指令 存储 器 (IM) 和 数据 存储 器 (DM) 的 指令 数据 通路 
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8.2 ”指令 集体 系 结构 的 类 型 


多 年 来 ， 指 令 集体 系 结构 的 发 展 主要 依据 集成 芯片 (IC) 技术 和 计算 机 结构 ， 如 流水 
线 。 除 了 操作 码 以 外 ， 指 令 还 包括 一 些 明 确 指定 的 或 者 隐 含 的 或 两 者 都 有 的 操作 数 。 操 作 数 
分 为 输入 操作 数 和 输出 操作 数 ， 输 出 操作 数 一 般 为 一 个 。 输 入 操作 数 可 指定 为 一 个 常量 或 一 
个 寄存 器 或 存储 器 的 内 容 ， 这 个 常量 也 被 称 为 立即 数 ， 如 数字 9。 输 出 操作 数 可 以 为 一 个 寄 
存 右 号 或 者 一 个 存储 器 地 址 。 寻 址 模式 用 来 解释 指令 执行 过 程 中 目标 数据 的 获取 方式 ， 不 同 
的 寻 址 模式 决定 了 不 同 的 获取 方式 。 


”8.2.1 寻 址 模式 


R 8-1 列 出 了 多 种 寻 址 方式 的 示例 。 在 这 个 表 中 ， 括 号 用 于 将 立即 值 和 存储 器 地 址 区 分 
开 。 这 些 符 号 通过 汇编 指令 转换 为 对 应 的 二 进 制 文 件 ， 这 些 符号 通常 被 称 为 机 器 指令 。 一 个 
立即 (1) 数 是 一 个 二 进 制 的 补 码 ， 其 可 在 指令 执行 过 程 中 直接 使 用 。 直 接 寻 址 (D) 的 操作 
数 是 一 个 存储 屁 地 址 ， 其 数据 必须 来 自 于 存储 器 。 变 址 (X) 操作 数 确 定 了 存储 器 中 下 一 个 数 
组 元 素 的 地 址 。 此 外 还 有 一 些 其 他 寻 址 模式 的 例子 ， 它 们 所 对 应 的 数据 的 存放 地 址 在 其 他 地 方 。 


表 8-1 和 寻 址 模式 的 样 例 


操作 数 符号 寻 址 模式 
V I， 立 即 数 : V 是 一 个 立即 数 形式 的 输入 操作 数 ， 二 进 制 补 码 
(V) D， 直 接 寻 址 : V 是 一 个 存储 器 地 址 ，(V) 表示 存储 器 地 址 为 V 的 存储 单元 中 的 数据 ( 即 M[V]) 
R R， 寄 存 器 : 表明 一 个 输入 数据 寄存 器 源 或 一 个 目的 寄存 器 ， 或 两 者 


R, (V) X， 变 址 寻 址 : V 是 一 个 寄存 器 地 址 ，R +V 是 存储 器 中 下 一 个 数据 的 地 址 ( 即 M[R + V]) 


K 8-2 说 明了 使 用 明确 指定 的 或 隐 含 的 操作 数 的 多 个 指令 例子 。 然 而 ， 这 些 指令 并 不 全 
属于 一 个 单独 的 处 理 器 。 每 条 指令 都 用 于 计算 两 个 数据 值 的 总 和 ， 并 将 总 和 存储 在 一 个 寄存 
人 句 中 。 表 中 的 第 一 条 指令 没有 明确 说 明 操作 数 ， 在 这 种 情况 下 ， 两 个 数据 的 源 地 址 和 计算 结 
果 的 目的 地 址 存放 在 数据 通路 的 堆栈 上 。 第 二 条 指令 明确 说 明了 一 个 操作 数 ， 为 立即 数 9， 
在 这 种 情况 下 ， 指 令 隐 含 了 一 个 寄存 器 ， 这 个 寄存 器 既 被 用 来 存储 数据 源 地 址 ， 也 被 用 来 存 
储 计算 结果 。 

第 三 条 指令 包含 两 个 明确 指定 的 操作 数 ， 寄 存 器 R1 和 立即 数 - 9， 在 这 种 情况 下 ，R1 
不 仅 保存 输入 操作 数 ， 也 保存 输出 的 结果 和 ， 也 就 是 说 ， 指 令 执行 R1 RI + 一 9。 在 第 4 
个 例子 中 ， 第 二 个 操作 数 是 一 个 存储 嚣 地址， 指令 执行 Rl1 R1 + M[9] 操作 ， 其 中 M[9] 
表示 存储 器 地 址 为 9 的 存储 单元 中 存储 的 数据 。 在 第 5 个 例子 中 ， 第 二 个 和 第 三 个 操作 数 表 
明了 第 二 个 输入 数据 的 存储 地 址 ， 为 R2 + 9， 指 令 执行 R1 二 了 R1 + M[R2 + 9]。 在 第 6 个 例 
子 中 ， 两 个 输入 操作 数 为 寄存 器 中 存储 的 数据 ， 指 令 执行 R1 一 R1L + R2。 在 第 7 个 例子 中 ， 
明确 指明 了 目的 寄存 器 ， 目 的 寄存 器 的 寄存 器 号 可 以 和 两 个 源 地 址 寄存 器 号 之 一 相同 ， 也 可 
以 不 同 ， 指 令 执 行 R3 + Rl1 + R2。 


表 8-2 一 系列 包含 明确 指定 的 或 隐 含 的 操作 数 的 指令 示例 


zo E 
1 | ADD | 源 操作 数 和 目的 操作 数 已 被 指令 所 知 (如 : 硬件 栈 ) 


2 ADD 9 立即 数 寻 址 : R+-R+9; R 是 一 个 指令 已 知 的 寄存 器 
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( 续 ) 
za) we | = 


3 ADD Rl, -9 寄存 器 和 立即 数 :，R1 +- Rl + - 9 ; R1 既 被 用 来 存储 源 寄存 器 号 ， 也 
被 用 来 存储 目的 寄存 器 号 
4 ADD RI, (9) 寄存 器 和 直接 寻 址 : R1<R1+M [9] 


5 寄存 器 和 变 址 寻 址 : R1} R1 +M [R2 + 9] 
6 寄存 器 和 寄存 器 (两 个 操作 数 ); RIRI + R2 


8.2.2 ”指令 格式 


指令 格式 用 来 把 助 记 的 汇编 指令 转换 到 机 器 指令 。 指 令 格式 指定 了 一 个 操作 码 、 寻 址 模 
式 、 源 寄存 器 (如果 有 )、 目 的 寄存 器 〈 如 果 有 )\2” 位 的 立即 数 (如 果 有 ) 以 及 存储 器 地 址 (如 
RA) 所 需 的 位 数 。 图 8-3 说 明了 表 8-2 中 列 出 的 指令 的 指令 格式 。 

例如 ， 表 8-2 中 的 包含 8 位 的 操作 码 、16 位 的 寄存 器 以 及 16 位 的 立即 数 的 指令 3 (ADD， 
rl, - 9)， 在 假定 ADD 操作 码 为 (00000001),、 寄 存 器 和 立即 数 ( RI) 寻 址 模式 为 (1000): 的 
情况 下 ， 指 令 译 码 为 4B 机 器 指令 的 格式 如 下 : 


0000 0001, 1000, 0001, LRL n aka Ot i L 1111 0111 or 
O181FFF7 in hex 


不 同 指令 格式 的 大 小 和 数量 取决 于 ISA 的 类 型 。 总 体 而 言 ，ISA 分 为 堆栈 ISA, BIMA 
ISA (Acc-ISA)、CISC-ISA 和 RISC-ISA， 这 将 在 下 文 讨论 。 


示例 指令 格式 
1: ADD 操作 码 
2: ADD9 操作 码 | | | 数据 | 


somons [eee [a [a WE 
6: ADD R1, R2 
nomme [ama [eae 


8-3 R 8-2 中 列 出 的 8 条 指令 的 指令 格式 示例 


8.2.3 堆栈 1SA 
采用 堆栈 ISA 的 处 理 器 使 用 一 个 硬件 堆栈 来 操作 数据 以 后 进 先 出 (LIFO) 的 顺序 执 
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行 ， 即 最 后 一 个 存储 的 数据 将 是 第 一 个 取 回 的 数据 。 数 据 从 存储 器 中 取出 ， 压 入 堆 栈 中 ,用 
于 计算 的 数据 或 者 需要 重新 写 回 到 存储 器 的 数据 需 从 堆栈 中 弹出 ， 计 算 的 结果 也 压 人 堆栈 
中 去 。 

使 用 堆栈 ISA 的 优势 在 于 其 指令 长 度 在 绝 大 多 数 指令 中 最 短 。 因 此 ， 当 处 理 器 输入 输 
HERRAR, HR ISA 是 处 理 器 设计 的 理想 架构 。 该 处 理 右 将 像 惠 普 (HP) ib Rak 
运行 ， 需 要 将 一 个 数学 公式 首先 按 逆 波 兰 式 进行 转换 。 例 如 ， 在 惠普 计算 需 中 计算 2x (3 
+ 4)， 必 须 先 输入 3， 然后 是 4， 再 是 + 号， 然后 是 2， 最 后 是 *。 思 考 下 面 的 高 级 语言 程序 
语句 : 


A=B * (C + D); 


为 了 让 该 语句 可 在 堆栈 ISA 处 理 器 上 执行 ， 编 译 器 必须 先 将 语句 转换 为 逆 波 兰 式 CD + 
B* = A。 接 着 编译 器 把 符号 转换 到 下 面 的 堆栈 ISA 示例 汇编 程序 。 注 意 ， 算 术 指 令 ADD 和 
MULT 不 需要 操作 数 ， 这 使 得 每 条 指令 的 长 度 非 常 短 。 压 人 指令 (PUSH)、 弹 出 指令 (POP) 
以 及 数据 移动 指令 (MOV) 都 只 需要 一 个 操作 数 。 总 体 而 言 ， 程 序 的 控制 顺序 指令 ， 比 如 分 
支 指令 或 子 程序 调用 ， 也 只 需要 一 个 操作 数 。 


Instruction 


number ' 

1: PUSH (C) //stack<«M[C] 

2: PUSH (D) //stack<M[D] 

3: ADD //stack<« (C) + (D), values popped, added, 

//result pushed 
4: PUSH (B) //stack«M[B] 
5: MUL //stack< ((C) + (D)) * (B), values popped, added, 
//result pushed 
6: POP (A) //M[A] < (((C) + (D)) * (B)), value is popped 


//and stored in memory 


图 8-4 阐明 了 上 述 程序 使 用 堆栈 ISA ADEE ADT. ERAR, BE (B)=2, (C)= 
3，(D) =4， 展 示 了 指令 执行 过 程 中 逻辑 堆栈 和 硬件 堆栈 的 内 容 。 


压 入 3， EM, 弹出 两 个 数字 ， 数 压 入 2， 弹出 两 个 数字 ， 数 弹出 ， 计 数 器 


计数 器 为 1 计数 器 为 2 字 相 加 ， 再 压 入 堆 计数 器 为 2 FR, BEAM 为 0 ( 堆栈 为 空 ) 
栈 ， 计 数 器 为 1 栈 ， 计 数 器 为 1 
指令 号 1 2 3 4 5 6 


图 8-4 计算 逆 波 兰 式 CD + B* = A 时 的 堆栈 内 容 ， 假 定 (B) = 2, (C)=3, (D)=4 


堆栈 ISA 的 劣势 在 于 在 之 后 的 计算 过 程 中 不 能 重复 使 用 存储 器 的 内 容 。 一 旦 存储 器 内 
容 从 堆栈 中 弹出 ， 在 处 理 器 中 将 不 再 可 用 。 例 如 ， 考 虑 程序 语句 “ A = (B +C) * (B + D);”， 
要 求 变量 B 两 次 压 人 堆栈 中 ， 这 增加 了 存储 器 的 通信 量 。 
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8.2.4 RİZE ISA 


累加 器 ISA 是 最 简单 的 架构 ， 并 且 需 要 的 硬件 最 少 。 数 据 通路 包含 一 个 专用 的 既 作 为 
源 寄 存 顺 也 作为 目的 寄存 器 的 寄存 器 ， 这 个 寄存 器 叫 累加 器 (ACC)。 寄 存 器 被 用 来 作为 一 
个 隐 含 输入 操作 数 和 一 个 隐 含 输出 寄存 器 名 。 例 如 ， 考 虑 高 级 语言 程序 语句 “A=B*(C+ 
D);”， 其 采用 累加 器 ISA 的 示例 汇编 程序 如 下 所 示 。 相 对 于 堆栈 ISA， 在 累加 器 ISA HF, FB 
术 指 令 可 直接 操控 存储 器 中 的 数据 ， 因 此 ， 相 对 于 堆栈 ISA， 累 加 器 ISA 减少 了 转换 高 级 语 


言 程 序 为 汇编 程序 的 指令 数量 。 
1: LD (C) //ACC<M[C] 
2: ADD (D) //ACC<ACcC + MID] 
3: MUL (B) //ACC<ACC * M[B] © 
4: ST (A) //M[A] —<ACC | 


然而 ， 累 加 器 ISA 的 缺点 也 正 是 因为 ACC 而 成 为 架构 的 瓶颈 ， 就 像 堆栈 ISA 中 的 硬件 
堆栈 一 样 。ACC 中 的 内 容 可 能 需要 重新 写 人 存储 器 中 以 便 下 一 个 计算 使 用 。 例 如 ， 考 虑 计 
算 A=(C+D)*(E-F)， 其 中 C+D 操 作 和 E-EF 操 作 必须 在 乘 操 作 之 前 得 到 结果 。 在 这 种 
情况 下 ， 一旦 C +D 进行 了 计算 ， 在 ACC 中 保留 的 和 必须 写 回 到 一 个 临时 的 存储 器 单元 ， 
以 便 可 以 计算 E 一 F。 累 加 器 ISA 也 可 以 包含 其 他 的 寄存 器 ， 比 如 访问 存储 器 中 存储 单元 的 
变 址 寄存 器 以 及 保存 子 程序 调用 的 返回 地 址 的 链接 寄存 器 。 


8.2.5 CISC-ISA 


复杂 指令 集 计 算 机 (CISC) ISA 是 在 累加 器 ISA 的 基础 上 ， 通 过 增加 数据 通路 中 工作 
寄存 器 的 数量 得 来 的 。 每 个 算术 指令 可 包括 一 个 或 两 个 显 式 声明 的 寄存 器 操作 数 。 和 累加 器 
ISA 相似 ，CISC-ISA 的 算术 指令 可 直接 从 存储 器 中 引用 数据 。 此 外 ，CISC-ISA 一 般 实现 多 
种 寻 址 模式 ， 需 要 不 同 尺寸 的 多 种 指令 格式 。 

算术 指令 的 输入 操作 数 可 以 为 一 个 立即 数 、 寄 存 器 或 者 存储 器 内 容 ， 不 过 操作 数 中 只 可 
以 有 一 个 是 立即 数 或 存储 器 内 容 。 通 常 ， 一 个 CISC-ISA 处 理 器 可 实现 很 多 简单 和 复杂 的 指 
令 ， 因 此 ， 将 一 个 高 级 语言 转换 为 CISC 指令 所 需要 的 指令 数量 最 少 。 然 而 ， 一 些 复杂 指令 
可 能 需要 更 多 时 间 来 执行 。 下 面 是 计算 语句 “A=B*(C+D);” 采 用 CISC-ISA 的 汇编 程序 
示例 : 


1 LD R1, (C) //R1<M[C] 
2 ADD Rl, (D) //R1<R1 + M[D] 
3 MUL R1, (B) //R1<R1 * M[B] 
hc ST (A), R1 //M[A] <R1 


因为 有 更 多 的 寄存 器 可 以 选择 ， 语 铅 “A=(C+D)*(E-EF);” 可 使 用 一 个 寄存 器 (如 
R1) 来 计算 C + D， 用 另 一 个 寄存 器 (如 R2 ) 来 计算 E -上 F， 然 后 将 两 个 寄存 器 的 内 容 相 乘 
生成 最 终结 果 。 然 而 ， 即 使 在 CISC-ISA 中 有 多 个 工作 寄存 器 ， 相 比 于 一 个 典型 的 高 级 语言 
程序 中 的 变量 数量 ， 可 用 的 寄存 器 数量 还 是 非常 少 。 并 且 ， 取 决 于 每 个 高 级 程序 语句 的 尺 
寸 ， 可 能 有 许多 中 间 结 果 (例如 ,C+D ME-F) 要 保存 在 处 理 器 内 部 的 寄存 器 或 存储 器 中 。 
因此 ,与 累加 器 ISA 相似 ， 在 寄存 器 中 的 中 间 结 果 可 能 也 需要 写 回 到 存储 器 中 从 而 释放 寄 
存 器 以 方便 下 一 条 计算 使 用 。 

[ 与 堆栈 ISA 或 累加 器 ISA 编译 器 不 同 的 是 ， 当 所 有 的 寄存 器 包含 中 间 结 果 时 ，CISC- 
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ISA 编译 器 需要 实现 一 个 寄存 器 选择 策略 ， 以 尽量 减少 内 存 访 问 。 寄 存 器 分 配 策略 ， 如 最 近 
最 少 使 用 (LRU)， 用 来 将 一 个 存储 了 中 间 结 果 的 寄存 器 的 内 容 写 回 存储 器 ， 从 而 释放 该 寄 
存 器 。 男 一 方面 ， 如 果 LRU 寄存 器 中 的 内 容 是 存储 器 数据 ， 则 直接 丢弃 其 中 内 容 。] 


8.2.6 RISC-ISA 


如 前 所 述 ， 一 个 典型 的 CISC-ISA 数据 通路 使 用 多 种 寻 址 模式 。 另 一 方面 ，RISC-ISA 
的 设计 者 认为 更 简单 的 指令 可 使 得 数据 通路 更 简单 、 更 有 效 。 了 阿尔法 、MIPS 和 Sparc 的 处 
理 器 从 一 开始 就 是 依照 RISC-ISA 处 理 器 进行 设计 的 。 

RISC-ISA， 也 被 称 为 加 载 / 存 储 结构 ， 只 使 用 两 条 指令 (加载 指令 LD 和 存储 执 令 
ST) 来 访问 存储 器 。 算 术 指 令 不 能 直接 在 存储 器 上 操作 数据 。 存 储 需 数据 必须 在 其 进行 计 
算 之 前 加 载 到 寄存 器 中 。 下 面 是 计算 语句 “A = B * (C + D);” 采 用 RISC-ISA 的 汇编 程序 
示例 : 


1. WD Ri, (C) //R1<M[C] 
2, BD R2, (D) //R2<M[D] 
3. ADD R3, R1, R2 #£=//R3€R1 + R2 
4. LD R4, (B) //R4 «< MIB] 
5. MUL R5, R3, R4 //R5€R3 * R4 
6. ST (A), R5 //M[A] < R5 


这 个 汇编 程序 在 处 理 器 中 使 用 5 个 寄存 器 来 保存 3 个 存储 器 内 容 和 两 个 中 间 变 量 ( 即 
C*D 和 B* (C+D))。 相 对 于 CISC-ISA 处 理 器 来 说 ， 通 常 RISC-ISA 处 理 器 使 用 更 多 的 寄 
存 器 ， 这 样 是 因为 要 在 寄存 器 中 保存 更 多 的 数据 ， 以 便 提 高 处 理 器 的 吞吐 量 。 


8.3 设计 示例 


上 文 已 给 出 一 个 简单 的 累加 器 ISA 的 CPU 设计 示例 ， 然 而 ， 这 里 的 目的 并 不 是 要 建立 
一 个 完整 的 指令 集 ， 而 是 要 提供 一 种 自 顶 向 下 的 设计 方法 。 我 们 从 一 个 简单 的 高 级 语言 示例 
来 阐述 这 种 方法 ， 其 需要 包含 以 下 内 容 : 
e 指令 集 设计 (一 个 示例 高 级 语言 程序 代码 转换 为 其 等 价 的 汇编 程序 所 必需 的 指令 
清单 )。 
@ 汇编 语言 程序 代码 清单 。 
o 可 执行 二 进 制 代码 〈 机 器 指令 ) 。 
e 数据 通路 设计 。 
e 便 件 描述 语言 (HDL) 模型 。 
e 仿真 。 


8.3.1 累加 器 |SA 指令 集 设计 


例 8-1 展示 了 使 用 for 循环 求解 数组 中 各 元 素 之 和 的 高 级 语言 程序 代码 。 我 们 将 建立 一 
个 累加 器 ISA 指令 集 来 编译 代码 ， 从 而 生成 等 价 的 汇编 程序 。 
求解 数组 大 小 为 8 的 元 素 之 和 的 程序 代码 : 


int array [8]; 


int i, sum; 
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sum = Q 
for (i = 0; i < 8; i++) 
sum = sum + array [i]; E 

仔细 检查 示例 代码 可 知 ， 我 们 需要 创建 算术 指令 (如 加 法 和 比较 操作 )、 包 括 数 组 索引 
在 内 的 数据 移动 指令 以 及 程序 流 控 制 指令 (如 跳 转 、 比 较 结果 为 大 时 跳 转 等 )。 对 于 数组 索 
引 ， 数 据 通路 必须 包含 另 一 个 寄存 器 (X) 来 保存 数据 元 素 的 下 一 个 索引 。 表 8-3 展示 了 翻 
译 示例 程序 代码 为 等 价 的 汇编 语言 程序 所 需 的 指令 集 。 

在 这 个 表 中 ， 程 序 指针 (PP) 也 叫 作 程序 计数 器 (PC)， 其 保存 程序 执行 的 下 一 指令 所 
在 的 地 址 。 这 里 ， 整 数 从 0 开始 任意 分 配给 操作 码 。 操 作 码 0 ma NERE (NOP). R 
然 这 里 使 用 空 操作 ,但 它 是 设计 高 性 能 RISC 处 理 促 的 必要 部 分 。 


表 8-3 ”转换 高 级 语言 程序 为 等 价 的 汇编 语言 程序 的 累加 器 ISA 指令 集 示例 


操作 码 动作 

ynor | [nr E 

ACE ACC Made 

3 if ACC == data then GTF = 1 else GTF = 0 
7] mm noc Media) 

AOC = MIX + add 

Mv ACC 

T aden] ACG 


ACC: 累加 器 ; GTF: 大 于 标志 位 ; PP: 程序 指针 ; X: 变 址 寄存 器 


1. 累加 器 ISA 汇编 程序 示例 

由 于 没有 针对 累加 器 ISA 处 理 器 的 编译 器 ， 在 例 8-1 中 的 代码 必须 手动 转换 为 汇编 代 
码 ， 如 例 8-2 所 示 。 累 加 器 ISA 汇编 语言 程序 的 每 一 行 中 包含 4 个 字段 : 一 个 可 选 的 标签 字 
段 ， 一 个 操作 码 字 段 ， 一 个 操作 数字 段 (如果 有 )， 一 个 可 选 的 注释 字段 。 标 签字 段 可 能 包 
含 一 个 跳 转 地 址 ， 如 例 8-2 PH LI A L2. 

“.code” 和 “ .data ”是 用 于 分 离 程序 中 指令 和 数据 的 汇编 指令 。 当 处 理 带 数据 通路 要 
求 在 执行 过 程 中 指令 和 数据 要 存放 在 不 同 的 存储 器 区 域 中 时 ， 这 两 个 命令 是 必要 的 。 为 了 实 
现 更 高 的 性 能 ， 指 令 和 数据 将 分 别 存储 在 处 理 器 的 IM 和 DM 中 ， 如 图 8-2 所 示 。 示 例 中 代 
表 保 留 字 节 的 “RB”， 是 一 个 伪 指 令 的 示例 。 伪 指令 “RB ”被 编译 器 解释 为 给 程序 中 的 变 
量 sum 和 i 以 及 数据 结构 array 分 配 存 储 器 地 址 空间 。 

例 8-1 中 的 累加 器 ISA 汇编 语言 程序 : 


.Code //start program code 
LD 0 //Initialize, ACC<0 
ST (sum) //M{sum] < ACC 
ST (i) //M[i] «ACC 
Ll 
CMP fi //is i > 7? (is ACC == 72) 


JGT L2 //exit for-loop if yes (PP<L2) 
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MVX //get next index (Xe ACC) 


LD X(array) //get next array element (ACC «eM [array 
//+ X]) 

ADD (sum) //and add it to the partial sum (ACC «ACC 
//+M[sum] ) 

ST (sum) //store the partial sum in memory (M[sum] 
//< ACC) 

LD (i) //do i = i + 1: get i (ACCeM[i]), 

ADD 1 //increment i (ACCeACC + 1), and 

ST (i) //save i (M[i] ACC). 

JMP L1 //loop back 


LAS w 


.data //start program data 


array: RB 8 //reserve 8 bytes for array in memory 
is RB 1 //reserve 1 byte for i in memory 
sum: RB 1 //reserve 1 byte for sum in memory is] 


例 8-2 中 的 程序 使 用 的 语法 是 自己 定义 的 。 然 而 ， 对 于 一 个 特定 语法 的 例子 ， 请 参考 微 
软 汇编 器 (MASM) [2]。 

2. 代码 和 数据 存储 空间 

8-5 展示 了 程序 执行 过 程 中 代码 和 数据 是 如 何 存储 在 虚拟 存储 器 中 的 。 虚 拟 地 址 的 范 
围 决 定 了 程序 的 最 大 大 小 ， 单 位 为 字 节 。 例 如 ， 对 于 一 个 32 位 的 用 户 虚拟 地 址 空间 ， 用 户 
程序 最 大 可 以 为 4GB。 

分 配给 一 个 正在 运行 的 程序 的 虚拟 地 址 空间 被 划分 为 程序 代码 区 和 程序 数据 区 ， 如 
图 8-5 所 示 。 虚 拟 存储 系统 将 在 第 10 章 讲述 。 然 而 ， 这 里 我 们 假定 了 图 8-5 表示 了 示例 程 
序 在 虚拟 存储 空间 分 配 的 方式 。 








程序 起 始 地 址 一 > 
较 小 数量 的 
变量 和 数据 结构 
数据 起 始 地 址 一 = | 
a) 虚拟 地 址 空间 中 b) 指令 比 数据 多 c) 数据 比 指令 多 


的 指令 和 数据 
8-5 ”虚拟 存储 地 址 空间 中 的 程序 代码 和 数据 


3. 基于 奔腾 IV 指令 架构 的 汇编 程序 示例 

例 8-3 展示 了 对 例 8-1 中 的 程序 采用 英特尔 奔腾 信 指 令 架 构 翻 译 得 到 的 汇编 代码 ， 这 是 
使 用 CygWin 中 的 gcc 编译 器 编译 生成 的 ，CygWin 是 在 Windows 环境 下 与 Linux 环境 下 相 
同 效 用 的 编译 器 [3]。 在 列表 中 ， 整 数 数据 类 型 大 小 为 4B。 在 每 条 指令 最 右 侧 的 操作 数 表示 
目的 操作 数 。 在 程序 中 ， 寄 存 器 具有 前 级 标记 “%”。 寄 存 器 %ebp 被 称 为 基 指 针 ， 其 维持 一 
个 程序 数据 区 在 存储 器 中 的 起 始 地 址 。 并 且 ， 为 了 避免 cache 和 存储 器 未 对 齐 以 及 实现 更 好 
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的 性 能 [4]， 将 先 分 配 大 容量 数据 结构 。 然 而 ， 随 着 更 大 容量 的 主 存储 器 的 使 用 ， 数 据 结 构 可 
通过 声明 比 必要 (填充 的 ) 容量 更 大 的 空间 来 达到 更 好 的 高 速 缓冲 性 能 [5]。 在 这 个 代码 中 ， 
数据 地 址 %ebp — 40 被 赋值 给 array，%ebp — 44 被 赋值 给 变量 i，%ebp — 48 被 赋值 给 sum. 
读 人 有 效 地 址 (“leal”) 指令 读 入 一 个 存储 右 地 址 (不 是 存储 器 内 容 ) 到 一 个 寄存 器 中 。 

例 8-1 中 的 示例 程序 的 基于 奔腾 IV 指令 架构 的 汇编 代码 : 


movl $0, -48(%ebp) //initialize sum, Memory [%ebp — 48] <0 (sum = 0) 
movl $0, -44(%ebp) //initialize i, Memory[%tebp — 44] <0 (I = 0) 
LI: 
cmpl $7, -44(%ebp) (fas i > T? 
jg L8 //if yes, jump to L8 
movl -44(%ebp), teax //get i, %eaxe Memory [i] 
movl -40 (%ebp,%eax,4), %edx //get array[i], tedx<Memory [array + i + 4] 
leal -48(%tebp), teax //get address of sum, %teax<%ebp - 48 
addl %edx, (%eax) //Memory [sum] «array [i] + Memory [sum] 
leal -44(%ebp), teax //get address of i, teax<%ebp — 44 
incl (%eax) //Memory [i] «Memory [i] + 1 
jmp L7 //repeat 
L8: ii 


4. 基于 Sparc 架构 下 的 示例 汇编 程序 

例 8-4 展示 说 明了 例 8-1 中 的 程序 经 过 gcc 编译 器 编译 生成 的 基于 AltraSparc I $6438 
构 的 汇编 语言 程序 。 在 这 个 示例 中 ，gcc 编译 需 是 在 Virtutech Simics 环境 下 的 虚拟 Aurara 
SPARC Linux 操作 系统 中 使 用 的 [6]。 

AltraSparc 是 一 个 RISC-ISA 的 处 理 器 ， 因 此 ， 算 术 指 令 不 会 直接 访问 存储 器 ， 它 只 操 
纵 寄存 器 中 的 内 容 和 立即 数 。 只 有 读 人 〔1d) 或 存储 (st) 指令 可 访问 存储 器 。 寄 存 器 采用 前 
缀 标记 “ %”， 寄 存 嚣 “%fp” 表 示 帧 指针 ， 和 英特尔 架构 中 的 基 指 针 相 似 ， 保 存 存储 器 数 
据 区 的 基地 址 。 因 为 Sparc 处 理 器 自动 执行 紧 随 分 支 指令 后 下 一 指令 ， 比 如 “bg” 和 “b”， 
未 被 优化 的 代码 必须 在 每 个 分 支 指令 后 包含 一 个 空 操作 指令 。 

正如 预期 的 那样 ， 例 8-4 中 的 RISC 程序 的 指令 数量 (19 条) 要 比例 8-3 中 的 CISC FE 
序 中 指令 数量 (11 条 ) 多 。 

例 8-1 中 示例 程序 在 Sparc 架构 下 的 汇编 代码 ， 代 码 未 被 优化 。 


st %g0, [%fp-48] //Store, Memory [fp -48] -g0 (g0 always 0) (sum = 0) 
st %g0, [%fp-44] //Store, Memory [fp — 44] eg0 (i = 0) 


.LLS 
ld [%fp-44], %g1 //Load, gl «e Memory [i] 
cmp %gl, 7 //Compare, is gl > 7? 
bg . LL6 //Branch if greater than 7 
nop 
ld [tf£p-44], %g1l1 //Load, gl < Memory [i] 
Bll %91, 2, %¢2 //Compute ptr to array[i]: Shift Left Logical (i * 2) 


add %fp, -8, %gl //gl<fp — 8 (get memory location of array) 
add %g2, %*g1, %g1 //gl<«g2 + gl (array location + next i * 2) 
ld [tfp-48], %g2 //Load sum, g2 «e Memory [fp -48] 

ld [%g1-32], %g1  //Load array]i], gl Memory [g1 — 32] 

add %g2, %gl, %g1 //Arrayji] + sum, gleg2 + gl 

st %gl, [%tfp-48] //Store sum, Memory [fp — 48] «gl 

ld [sfp-44], %g1 //Load i, gl«<Memoryl[fp — 44] 


add tgi; 1, %gl //Increment, gl<«gl + 1 

st %gl, [%*fp-44] //Store i, Memory [fp - 44] «gl 
b .LLS //Branch to instruction ay LL5 
nop 
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5. 可 执行 代码 


一 个 汇编 语言 程序 将 被 汇编 器 翻译 成 等 价 的 二 进 制 代 码 ， 一 般 需 要 进行 两 次 扫描 。 在 第 
一 次 扫描 过 程 中 ， 汇 编 器 给 代码 和 数据 区 中 的 每 个 标记 分 配 一 个 存储 器 地 址 。 表 8-3 中 所 列 


的 指令 使 用 图 8-6 中 所 示 的 三 种 指令 格式 来 表示 其 二 进 制 指令 。 为 了 简单 起 见 ， 每 条 指令 由 


8 位 的 操作 码 和 8 位 的 数据 或 8 位 的 地 址 操作 数 (如 果 有 ) 构成 。 指 令 “NOP” 和 “MVX” 
没有 操作 数 ， 因 此 ， 这 两 条 指令 中 的 操作 数字 段 设置 为 0。 

例 8-5 列 出 了 例 8-2 中 程序 的 典型 的 汇编 器 输出 结果 ， 列 表 中 使 用 自 定 的 语法 。 为 了 简 
单 起 见 ， 示 例 累加 器 ISA 处 理 器 假定 为 16 位 的 机 器 ， 并 假定 程序 代码 和 数据 的 地 址 空间 为 
256B， 程 序 代码 起 始 地 址 为 0， 数 据 起 始 地 址 为 0xFF (一 个 基地 址 )。 


8 位 


NOP 
MVX 


8 位 


图 8-6 示例 累加 器 ISA 处 理 器 的 指令 格式 


8 位 8 位 
操作 码 
ADD 
CMP 
LD 


操作 码 | 地址 


ADD 
JGT 
JMP 
LD 
LDX 
ST 


对 例 8-2 中 汇编 程序 手动 解释 输出 结果 。array 起 始 地 址 0xF0， 大 小 为 16B，， 
变量 i 起 始 地 址 0xEE， 大 小 为 2B， 变 量 sum 起 始 地 址 0xEC， 大 小 为 2B。 


例 8-6 Xt Bi] 8-3 中 汇编 程序 手动 解释 的 输出 结果 。 英 特 尔 奔 腾 系 列 处 理 器 执行 不 同 大 小 \ 
的 CISC 指令 。 例 如 ,“movl1” 是 一 条 7B 大 的 指令 ,“jg” 是 一 条 2B 大 的 指令 。 


Instruction Instruction in binary Inhex 
LD 0 0000,0110;0000,0000 0600 
ST OxEC 0000,1010;1110,1100 OAEC 
ST OxEE 0000,1010;1110,1110 OAEE 
CMP 7 0000,0011;0000,0111 0307 
JGT Ox1A 0000,0100;0001,1010 041A 
MVX 0000,1001;0000,0000 0900 
LD X (OxFO) 0000,1000;1111,0000 O8FO 
ADD (0xEC) 0000, 001071110;,1200 O2EC 
ST (OxEC) 0000, 101021170.,.1.000 OAEC 
LD (OxEE) 0000, 011121110, 1110 07EE 
ADD 1 0000,0001;0000,0001 0101 
ST (OxEE) 0000,1010;1110,1110 OAEE 
6 0000,0101;0000,0110 0506 


例 8-3 中 奔腾 IV 程序 的 汇编 器 输出 结果 。 数 字 0xffffFffd0、0xffffffd4 和 


Oxffffffd8 表示 二 进 制 补 码 形 式 的 数字 一 48、 


401340: 
401347: 
40134e: 
401352: 
401354: 
401357: 
40135b: 
40135e: 
401360: 
401363: 


C7 


00 00 00 00 movl 


— 44 Ñl — 40. 


$0x0, Oxffffffd0 (%ebp) 


00 00 00 00 
07 


d8 


Oxffffffd8 (tebp, teax,4) , tedx 


movl SOx0 ,0xffffffd4 (tebp) 
cmpl $0x7, Oxffffffd4 (tebp) 
jg 401367 <_main+0x77> 
mov oxffffffd4 (%ebp) , teax 
mov 

lea 0xffffffd0 (%ebp) , teax 
add %edx, (teax) 

lea Oxffffffd4 (tebp) , teax 
incl (teax) 


PARKA BH eee A 


401365: eb e7 jmp 40134e < main+0x5e> 
401367: b8 02 00 00 00 a 


例 8-7 是 对 例 8-4 中 AltraSpare I [程序 使 用 汇编 器 解释 的 输出 结果 。 因为 Sparc 是 一 个 
RISC-ISA， 为 了 高 效率 地 执行 指令 ， 所 有 指令 都 是 相同 长 度 。 
例 8-4 中 AltraSparc 工程 序 使 用 汇编 器 解释 的 输出 结果 : 


...-104f4: CS 27 bE do clr [ %fp + -48 ] 
104f8: co 27 bE d4 clr [ %fp + -44 ] 
104fc: c2 07 bf d4 ld [tfp + -44 ], %g1 
10500: 80 a0 60 07 | cmp %gl, 7 
10504: 14 80 00 Of bg 10540 <main+0x90> 
10508: 01 00 00 00 nop 
1050c: c2 07 bf d4 ld {[%fp + =44 ], %gi 
10510: 85 28 60 02 sll *g1, 2, %g2 
10514: 82 07 bE £8 add fp, -8, %g1 
10518: 82:00 80 01 add %g2, %gl, %gl 
1051c: c4 07 bf do ld [tip + -48 ], %g2 
10520: c2 00 7f e0 lad [ g1 + -32 ], %gl 
10524: 82 00 80 01 add %g2, $g1, %gl 
10528: C2 27 bE do st $g1, [ tfp + -48 ] 
1052c: c2 07 bf d4 ld [%fp + -44 ], %gl 
10530: 82 00 60 O1 inc %gl 
10534: c2 27 bf d4 st gl, [ %fp + -44 ] 
10538: 10 bE FE £1 b 104fc <main+0x4c> 
1053c: 01 00 00 00 nop 
10540: Ei 


8.3.2 ”累加 器 ISA 处 理 器 : 单 周 期 


图 8-7 以 累加 器 ISA 处 理 器 为 例 说 明了 单个 指令 周期 的 数据 通路 ， 包 括 取 指令 、 指 令 译 
码 、 指 令 执 行 和 写 回 数据 4 个 单元 。 在 每 个 时 钟 周期 中 ， 指 令 被 获取 、 被 译 码 、 被 执行 ， 指 
令 执 行 的 结果 (MRA) 写 回 到 寄存 器 ACC、X 或 1 位 状态 寄存 器 ( SR), 假定 指令 已 经 读 
AIM (指令 高 速 缓冲 存储 器 ) 并 且 数 据 已 经 读 和 人 DM (数据 高 速 缓冲 存储 器 ) Po 

并 且 ， 在 每 个 时 钟 周期 中 ， 寄 存 器 PP 在 程序 中 要 执行 的 下 一 Phrenic 
时 ， 将 加 载 加 法 器 的 输出 结果 ， 而 当 程 序 要 执行 的 下 一 指令 为 跳 转 指令 的 结果 ， 如 “ 
或 “JMP” 时 ，PP 将 加 载 复 用 器 的 输出 结果 。 在 图 中 ， 假 定 了 eae. a 
IM 输入 一 个 字 地 址 并 输出 下 一 个 16 位 的 指令 。 

译 码 单元 包含 一 个 组 合 电 路 ， 电 路 输入 一 个 操作 码 ， 根 据 操作 码 生 成 所 有 必要 的 控制 信 
号 来 执行 当前 指令 。 译 码 单元 也 包含 寄存 器 ACC、X、SR。 总 体 而 言 ，SR 是 一 个 多 位 寄存 
器 ， 每 一 位 表示 一 种 情况 ， 比 如 相等 (E)、 小 于 (L)、 不 相等 (NE)、 算 术 运 算 输 出 结果 为 0 
(Z)、 有 进位 (C)、 算 术 运 算 结果 溢出 (0O) 以 及 其 他 各 种 与 处 理 器 状态 相关 的 状态 。 译 码 单 
元 输出 所 有 的 控制 信号 、 单 独 的 立即 数 操作 数 (如 果 有 ) 以 及 寄存 器 中 的 内 容 给 执行 单元 。 

执行 单元 包含 关于 执行 指令 的 所 有 必要 模块 。 当 一 个 模块 中 有 多 个 数据 源 时 ，MUX 是 
必需 的 。 例 如 ， 加 法 器 (Add) 模块 计算 输入 之 和 或 比较 器 (Cmp) 比较 其 输入 数据 ， 都 输出 
是 否 大 于 标志 位 ( gtf) 的 信号 。 模 块 输入 为 ACC 和 一 个 立即 数 或 直接 寻 址 的 操作 数 。 因 此 ， 
当 操 作 数 为 立即 数 时 ， 需 选择 操作 数 ， 当 操作 数 是 一 个 表示 存储 器 内 容 存 放 在 的 地 址 时 ， 需 
寻 址 来 获得 操作 数 ， 如 何 选 择 需 要 通过 一 个 复 用 器 (MUX) 来 实现 。 同 样 ， 当 寻 址 为 直接 寻 
址 和 变 址 寻 址 时 ， 也 需要 一 个 复 用 器 来 选择 获取 操作 数 的 方式 。( 参 考 第 3 章 练 习 部 分 ， 如 
何 设计 一 个 比较 器 。) 
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写 回 单元 包括 一 个 复 用 器 ， 它 是 用 于 选择 执行 单元 生成 的 结果 。“ LD” 和 “ADD” 
指令 的 执行 结果 将 存储 ( 写 回 ) 到 ACC 中 ;“MVC” 指 令 的 执行 结果 将 存储 到 寄存 器 XX 
H, HÍT “CMP”, RARE 1 位 的 大 于 标志 位 gtf， 结 果 存 储 在 SR 中 的 某 1 位 中 。 执 行 
“JMP ”指令 将 加 载 下 一 条 要 执行 指令 的 指令 地 址 到 PP 中 。 


指令 字 地 址 
( n-14iz ) 





时 钟 ， 
复位 


8-7 ”执行 例 8-2 中 的 程序 对 应 的 累加 器 ISA 单 指令 周期 的 数据 通路 


仿真 

例 8-8 展示 了 图 8-7 中 说 明 的 单 指令 周期 累加 器 ISA 数据 通路 的 HDL 模型 。 为 了 简单 
起 见 ，IM 和 DM 假定 均 为 64B， 组 织 成 32 x 16 的 结构 。 在 一 个 实际 的 处 理 器 中 ，IM 和 
DM 都 是 由 cache 存储 器 构成 (第 10 章 )。 由 于 处 理 器 采用 单 周 期 数据 通路 ， 指 令 需 要 在 一 
个 时 钟 周期 内 执行 完 。 

对 单 周 期 累加 器 ISA 数据 通路 的 HDL 行为 描述 包含 两 个 初始 化 模块 ， 初 始 化 
模块 是 用 来 初始 化 包含 程序 指令 IM 和 包含 数组 数据 的 DM。DM 使 用 8 个 元 素 ，100 ~ 107 
来 进行 初始 化 。 一 条 额外 的 指令 “JMP 0xl1A” 将 插入 程序 的 末尾 ， 从 而 生成 一 个 无 限 循环 
以 达到 仿真 目的 。 包 含 两 个 主要 代码 区 的 描述 将 在 接 下 来 讨论 。 E 
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译 码 和 执行 单元 这 种 组 合 行为 的 描述 隐 含 地 说 明了 执行 每 条 指令 所 需 的 控制 信号 ， 该 代 
码 还 描述 了 创建 数据 通路 所 必需 的 组 合 电 路 。 然 而 ，HDL 模块 并 没有 明确 描述 任何 计算 电 
路 模型 ， 其 实现 细节 留 给 Altera 的 综合 工具 来 决定 。 

取 指 令 和 写 回 单元 这 些 单元 通过 改变 寄存 器 PP、ACC、X 和 SR 的 内 容 来 更 新 处 理 需 
的 状态 。 因 此 ， 它 们 被 组 合 起 来 描述 ， 但 是 每 个 也 可 以 分 开 描述 。 组 合 单元 包含 了 加 法 器 、 
用 于 取 指 令 单元 的 复 用 器 以 及 用 于 写 回 单元 的 复 用 器 的 行为 描述 ， 如 图 8-7 所 示 。 


module accISA( 
input clock, reset, 
output [15:0] inst, 
output reg [15:0] acc, 
output reg [4:0] x, 
output reg sr 
) ; 


reg 
reg 
reg 


assign inst = 
wire [4:0] imAddress = pp[5:1]; 


[5:0] pp; //program pointer, points to the next instruction 

[7:0] opcode; 

[15:0] operand; 

[15:0] result; 

{opcode, operand[7:0] }; 

//IM is 32 X 16, addressing one instruction word 


wire [5:0] dmAddress = operand[5:1]; //DM is 32 X16, addressing one data word 


(* ramstyle = “M512” 
(* ramstyle = 


parameter 


*) reg [15:0] IM[0:31]; //instruction memory 


“M512” *) reg [15:0] DM[0:31]; //data memory 


DU 
DH I 
| 


I H 


//Initialize IM with machine instructions 


initial begin //Note, memory is organized as 31 X 16 
IM[0] = 16’h0600; //LD 0 

IM[1] = 16’hOAEC; //ST ‘(OxEC) // (sum) 

IM[2] = 16’hOAEE; //ST (OxEE) // (i) 

IM[3] = 16'h0307; //CMP 7 

IM[4] = 16'h041A; //JGT Ox1A 

IM[5] = 16’h0900; //MVX 

IM[6] = 16’hO8FO; //LD X(0xFO) // (array) 

IM[7] = 16'h02EC; //ADD (0xEC) // (sum) 

IM[8] = 16’hOAEC; //ST (0xEC) // (sum) 

IM[9] = 16’hO7EE;//LD (0xEE) //(i) 

IM[10] = 16’h0101; //ADD 1 

IM[11] = 16’hOAEE; //ST OxEE //(i) 

IM[12] = 16’h0506; //JMP 6 

IM[13] = 16'h051A; //JMP Ox1A, extra instruction to cause looping end 


//Initialize the array 

initial begin //Note, memory is organzied 32 X 16 

//Therefore, for example, address OxFO = (1111 0000) is reduced to 0x30 = (11 
0000) 

//and then to 0x18 = (1 1000), drppong the LSB to access a 16-bit word 

//DM[8‘h16] reserve for “sum” 

//DM[(8'h17] reserved for “i” 
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DM[8’h18] = 100; //array[0] = 100 
DM[8‘h19] = 101; ffarray[1] = 101 
DM[8’h1A] = 102; //array[2] = 102 
DM[8’h1B] = 103; //array[3] = 103 
DM[8‘h1iC] = 104; //array[4] = 104 
DM[8’h1D] = 105; //array[5] = 105 
DM[8‘h1E] = 106; ~ //array(6] = 106 
DM[8'h1F] = 107; //array[7] = 107 
end 

//---- Read instruction memory (IM) ------ 
always@ (*) 

begin 


opcode <= IM[imAddress] [15:8]; //ImAddress is instruction word address 
operand[7:0] <= IM[imAddress] [7:0]; 
operand[15:8] <= {8{operand[7]}}; //sign extend 8-bit operand to create a 16-bit 


//operand 
end 
//------ Decode and Execute --------- 
always@ (*) 
begin 
case (opcode) 
NOP: result = 16’hx; 
ADD_I: result = acc + operand; 
ADD _D: result = acc + DM[dmAddress] ; 
CMP I: if (acc > operand) 
result = {15’hx, 1’b1}; 
else 
result = {15’hx, 1'b0}; 
JGT: result = 16’hx; 
JMP: result = 16’hx; 
LD I: result = operand; 
LD D: result = DM([dmAddress] ; 
LD X: result = DM[dmAddress + x]; 
MVX: result = acc; 
ST: result = acc; 
default: result = 16’hx; 
endcase 
end 
//------- Fetch and Write Back -------- 
always@(posedge clock or posedge reset) 
begin 
if (reset == 1) 
begin 
pp <= 0; 
acc <= 0? 
x <= 0; 
Sx <= OQ; 
end 
else 


case (opcode) 
NOP: pp <= pp + 2; //incrementing in bytes not in words 
ADD _ I: begin acc <= result; pp <= pp + 2; end 
ADD_D: begin acc <= result; pp <= pp + 2; end 
CMP I: begin sr <= result[0]; pp <= pp + 2; end 
JGT: if (sr == 1) 
pp <= operand[5:0]; 
else 


pp <= pp + 2; //incrementing in bytes not in words 
UMP: pp <= operand[5:0]; 
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LD I: begin acc <= result; pp <= pp + 2; end 


LD D: begin acc <= result; pp <= pp + 2; end 
LD X: begin acc <= result; pp <= pp + 2; end 
MVX: begin x <= result[4:0]; pp <= pp + 2; end //indexing 16-bit 
words 
ST: begin DM[dmAddress] <= result; pp <= pp + 2; end 
endcase 
end 
endmodule 


图 8-8 说 明了 在 异步 重启 后 程序 开始 执行 部 分 的 模拟 波形 。 波 形 列 出 了 十 六 进 制 形式 的 
指令 和 十 进 制 形式 的 寄存 器 ACC、X 和 SR 的 内 容 。 图 8-9 说 明了 当 SR 位 变 为 IA, RW 
波形 到 达 末 尾 。 正 如 所 预期 的 那样 ， 图 中 显示 ACC = 828， 为 数组 array 中 各 元 素 之 和 。 随 
着 程序 最 后 的 “JMP 0x1A”(0x51A) 跳 转 指令 的 执行 ， 程 序 将 一 直 在 循环 中 执行 。 
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A 8-9 示例 累加 器 ISA 单 周期 处 理 器 仿真 波形 ， 配 图 说 明了 波形 的 未 尾部 分 ， 
最 终结 果 sum 为 828 (Ziv i) 


8.3.3 Ries ISA AMER: 流水 线 
图 8-10 说 明了 采用 4 级 指令 流水 的 示例 累加 需 ISA 的 框图 ， 图 8-11 说 明了 其 细 化 的 电 
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路 。 所 有 执行 指令 的 控制 信号 在 译 码 阶段 生成 ， 伴 随 着 寄存 器 的 内 容 ， 提 供给 执行 阶段 。 写 


回 阶段 所 需要 的 控制 信号 从 执行 阶段 中 发 出 ， 并 伴随 着 计算 的 结果 。 写 回 阶段 再 选择 并 传输 
一 个 计算 好 的 结果 (如 果 有 ) 到 译 码 阶段 ， 下 一 顺序 的 指令 执行 时 可 能 用 到 当前 执行 的 结果 ， 
写 回 阶段 也 将 选中 的 结果 转发 给 执行 部 件 。 

控制 信号 ex, esr 以 及 来 自 写 回 阶段 的 eacc 信号 在 译 码 阶段 控制 将 一 个 新 的 计算 结果 存 
储 到 寄存 器 ACC、X 或 SR 中 ， 这 些 信和 号 在 执行 阶段 也 用 来 选择 一 个 新 计算 结果 。 这 需要 三 
个 额外 的 复 用 器 来 实现 ， 这 三 个 复 用 器 标记 为 MUX5、MUX6、MUX7。 复 用 器 使 用 控制 信 
号 ex, esr 和 来 自 写 回 阶段 的 eacc 信和 号 构成 了 一 个 转发 单元 ， 并 增加 了 流水 线 的 吞吐 量 。 如 
图 所 示 ， 每 一 个 复 用 器 从 寄存 器 的 当前 内 容 和 一 个 从 写 回 阶段 反馈 的 还 没有 存 人 寄存 器 的 新 
计算 结果 两 者 中 选择 。 这 使 得 处 理 器 在 执行 数据 相关 的 指令 时 ， 可 直接 使 用 从 写 回 阶段 返回 
的 新 的 计算 结果 ， 从 而 不 用 等 待 计算 结果 写 回 到 寄存 器 中 。 上 述 的 转发 单元 的 复杂 性 依赖 于 
具体 的 ISA 的 复杂 性 ， 转 发 单元 的 功能 在 本 节 后 面 详细 讨论 。 


流水 线 指 令 数据 通路 





图 8-10 采用 4 级 指令 流水 的 数据 通路 


1. 仿真 

图 8-12 说 明了 在 异步 重启 后 程序 执行 开始 部 分 的 仿真 波形 。 波 形 列 出 了 十 六 进 制 形式 
的 指令 和 十 进 制 形式 的 寄存 器 ACC、X 和 SR 的 内 容 。 虽 然 波形 显示 指令 正 从 一 个 阶段 转 到 
下 一 个 阶段 ， 但 是 从 一 个 阶段 到 下 一 阶段 传送 的 信息 却 与 之 前 不 同 。 写 回 阶段 也 被 称 为 退出 
阶段 。 它 表明 指令 执行 的 完成 。 当 流水 线 中 所 有 部 件 都 处 于 忙 状 态 并 执行 指令 时 ， 流 水 线 的 
效率 达到 100%。 

图 8-13 说 明 当 SR 的 某 1 位 内 容 变 为 1 时 仿真 波形 的 末端 部 分 。 注 意 每 次 跳 转 指令 
(“JMP” 或 “JGT”) 执行 时 ， 流 水 线 重 新 开始 ， 这 叫 作 流水 线 清空 。 例 如 ， 如 图 8-13 所 示 ， 
当 无 条 件 跳 转 指 令 0x0506(“JMP 6” ) 或 有 条 件 跳 转 指令 0x041A( “IGT Ox1A” ) 执行 跳 转 时 ， 
将 导致 流水 线 清 空 并 因此 降低 流水 线 的 效率 。 在 上 述 示例 中 ， 当 有 流水 线 清 空 操 作 时 ， 三 个 
时 钟 周期 内 没有 指令 退出 ， 如 图 中 写 回 阶段 (inst.WB) 所 示 。 图 中 显示 ACC 内 容 为 828， 为 
数组 array 各 元 素 之 和 。 随 着 程序 最 后 的 “JMP 0x1A” 跳 转 指 令 ， 程 序 继 续 在 循环 中 执行 。 

2. 转发 和 冒险 单元 

转发 单元 转发 一 个 在 写 回 阶段 新 生成 的 结果 到 执行 阶段 ， 在 之 前 关于 累加 器 ISA 流水 
线 处 理 器 的 示例 中 对 转发 单元 进行 了 简要 讨论 。 这 里 ， 我 们 将 对 其 进行 更 全 面 的 讨论 。 考 虑 
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下 面 例 8-2 AINA ISA 程序 示例 中 的 两 条 数据 相关 指令 : 
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图 8-11 示例 累加 器 ISA ABS .vsd 的 流水 线 数据 通路 
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图 8-12 示例 累加 器 ISA 流水 线 数据 通路 的 仿真 波形 ; 图 中 阐述 了 波形 开始 部 分 ， 各 阶段 从 上 到 下 显示 
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图 8-13 示例 累加 器 ISA 流水 线 数据 通路 的 仿真 波形 ; 图 中 阐述 了 最 终结 果 sum A 828 的 波形 结束 部 分 


LD (i) //ACC<M[i] 
ADD 1 /{ACCe ACC + 1 


D 指令 加 载 存 储 器 数据 到 ACC H, ADD 指令 继而 递增 ACC 中 的 内 容 。 图 8-14 展示 
pit 村 着 两 个 指令 的 流水 线 时 空 图 。 在 图 8-14a 中 ， 处 理 器 使 用 一 个 转发 单元 转发 一 个 
还 没有 存储 在 ACC 中 的 新 读 人 的 存储 器 数据 (Mil) 到 执行 阶段 中 ， 以 方便 ADD 指令 执行 
时 使 用 。 

另 一 方面 ， 图 8-14b 说 明了 不 使 用 转发 单元 时 执行 同样 两 条 指令 的 情况 。 在 这 种 情况 
下 ， 当 LD 指令 处 于 执行 阶段 时 ，ADD 指令 将 进入 译 码 阶段 。 当 LD 指令 进入 写 回 阶段 
时 ，ADD 指令 的 执行 必须 等 到 ACC 指令 更 新 完 M[i] 中 的 内 容 后 才能 进入 执行 阶段 。 因 此 ， 
ADD 指令 必须 等 待 两 个 时 钟 周 期 ， 如 图 中 冒 泡 所 示 。 






S 箭头 表示 结果 从 写 回 
本 例 中 不 需要 冒险 单元 ”阶段 转 到 执行 阶段 

| ae eee Do fF ADD 
pee Bt SET eee aed 
LD (i) _ ADD1 
paa i 
oe E 

a ) 有 转发 单元 的 流水 线 图 冒 泡 表 明 

9 流水 线 等 待 






LD (i) ae 





fener meneame 
8-14 ”转发 单元 的 作用 : a) 有 转发 单元 的 流水 线 图 ; b) 无 转发 单元 但 有 冒险 单元 的 流水 线 图 
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流水 线 等 待 表明 存在 冒险 单元 ， 通 过 在 该 时 钟 周 期 隐 含 执行 一 个 NOP 指令 来 延迟 或 阻 
止 下 一 条 数据 相关 的 指令 (如 ADD) 进入 执行 阶段 。 一 旦 ACC 指令 完成 新 数据 的 更 新 ， 数 
据 相 关 指 令 (如 ADD ) 将 被 允许 进入 执行 阶段 完成 执行 过 程 。 

因为 在 这 种 情况 中 执行 单元 仅 包含 一 个 执行 部 件 ( 如 图 8-14 中 “执行 ” )， 处 理 髓 将 
需要 一 个 转发 单元 或 冒险 单元 ， 但 并 不 是 都 需要 。 图 8-15 说 明了 使 用 冒险 单元 的 累加 需 
ISA 流水 线 数据 通路 ， 例 8-9 展示 了 冒险 单元 的 HDL 模型 。 图 8-11 中 用 于 实现 转发 单元 的 
MUX4, MUX5, MUX6 在 图 8-15 中 已 从 数据 通路 中 移 除 。 

ERB) HDL 代码 部 分 使 用 显 式 声明 的 寄存 器 控制 信号 名 称 描述 了 图 8-15 中 累加 器 
ISA 流水 线 处 理 器 的 冒险 单元 。 冒 险 单元 对 写 回 阶段 和 执行 阶段 中 的 寄存 器 控制 信号 ex, 
eacc 和 esr 进行 比较 。 如 果 每 对 控制 信号 (如 执行 阶段 中 的 eacc 信号 和 写 回 阶段 中 的 eacc 
信号 ) 是 相同 的 ， 位 于 译 码 阶段 中 的 冒险 单元 将 延迟 当前 指令 的 执行 。 特 别 的 ， 冒 险 单元 将 
维护 hazard 信号 并 同步 复位 (清除 ) 流水线 寄存 器 ， 流 水 线 寄 存 器 传递 从 译 码 阶段 到 执行 阶 
段 的 当前 指令 的 寄存 器 控制 信号 ， 如 图 所 示 。 


执行 阶段 的 寄存 器 控制 信号 
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always@(*) //Hazard Unit 


begin 


case (opcode) 


0: 


10: 


begin //NOP 


end 


: begin //ADD direct 


28F 


hazard = 0; 
end 
: begin //ADD immediate 
if (eaccWB == 1 || eaccExe == 1) 
hazard = 1; 
else 
hazard = 0; 


if (eaccWB == || eaccExe == 1) 
hazard = 1; 
else 
hazard = 0; 
end 
: begin //CMP immediate 
if (eaccWB == 1 || eaccExe == 1) 
hazard = 1; 
else 
hazard = 0; 
end 
: begin //JGT immediate 
if(esrWB == 1 || esrExe == 1) 
hazard = 1; 
else 
hazard = 0; 
end 
: begin //JMP address: PC <- address 
hazard = 0; 
end 
: begin //LD immediate 
hazard = 0; 
end 
: begin //LD direct 
hazard = 0; 
end 
: begin //LD indexed 
if (exWB == || exExe == 1) 
hazard = 1; 
else 
hazard = 0; 
end 
: begin //MVX 
if (exWB == || exExe == 1) 
hazard = 1; 
else 
hazard = 0; 
end 
begin //ST 
if (eaccWB == || eaccExe == 1) 
hazard = 1; 
else 
hazard = 0; 
end 
default: begin 
hazard = 0; 


end 


endcase 
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一 般 情况 下 ， 执 行 单元 由 两 个 或 多 个 阶段 构成 ， 从 而 将 所 需 的 硬件 更 好 地 分 布 到 多 个 阶 
段 中 ， 并 尽量 减少 了 流水 线 的 时 钟 周期 。 在 这 种 情况 下 ， 流 水 线 数 据 通路 既 需 要 一 个 转发 单 
元 也 需要 一 个 冒险 单元 ， 如 将 在 8.3.4 节 中 进行 讨论 的 RISC 处 理 器 。 此 外 ， 由 于 在 一 个 典 
型 的 CISC 或 RISC ISA 中 使 用 不 是 一 个 而 是 多 个 通用 寄存 器 ， 转 发 单元 和 冒险 单元 必须 能 
够 检查 几 个 不 同 的 寄存 器 中 的 数据 相关 。 

3. 性 能 分 析 

一 个 处 理 器 的 性 能 通常 以 每 条 指令 的 时 钟 周期 数 ( CPI) 来 衡量 。CPI 是 程序 执行 总 的 
时 钟 周期 数 除 以 程序 中 指令 条 数 计算 得 来 ( 见 公 式 (8-1 ) )。 

使 用 的 时 钟 周期 数 (N) 
“程序 执行 的 指令 条 数 〔7) 

图 8-16 说 明了 累加 器 ISA 程序 示例 的 流水 线 图 ， 如 图 所 示 。 表 8-4 对 流水 线 图 进行 了 
总结， 需要 6 个 时 钟 周 期 (图 中 标记 为 i 到 vi) 来 执行 for 循环 之 前 的 指令 ， 需 要 12 个 时 钟 
周期 来 执行 for 循环 中 的 每 次 循环 的 指令 。 最 后 ， 需 要 2 个 时 钟 周期 (标记 为 I AT) 来 退 
出 for 循环 操作 。 程 序 中 for 循环 之 前 有 3 条 指令 ，for 循 环 主 体 有 10 条 指令 ， 需 要 2 条 指 
A ( “CMP” M “JGT” ) 来 退出 for 循环 。 


i ii iii iv V Vi 1 2 3 4 





58 LDO ST (sum) ST (i) CMP 7 JGT L2 MVX LD X(array) 
执行 LD0 ST (sum) ST (i) CMP 7 JGT L2 MVX LD X(array) ADD (sum) 
译 码 LD0 ST (sum) ST (i) CMP 7 JGT L2 MVX LD X(array) ADD (sum) ST (sum) 
取 指 令 LDO ST (sum) ST (i) CMP 7 JGT L2 MVX LD X(array) ADD (sum) ST (sum) LD (i) 
时 钟 周期 1 2 3 4 5 6 7 8 9 10 

5 6 7 7 8 10 11 12 1 2 
写 回 ADD (sum) ST (sum) LD (i) ADD 1 ST (i) JMP L1 O O CMP7 
执行 ST (sum) LD (i ADD 1 ST (i) JMP L1 o o CMP 7 JGTL2 
译 码 LD (i) ADD 1 ST (i) JMP L1 ? o CMP 7 JGTL2 MVX 
取 指 令 ADD 1 ST (i) JMP L1 ? ? CMP 7 JGTL2 MVX LD X(array) 
时 钟 周期 

10 11 12 | Il 
写 回 JMP L1 O O CMP7 JGTL2 O O 
执行 A O O CMP 7 JGT L2 MVX O 
译 码 " (0) CMP 7 JGT L2 MVX LD X(array) 
Rig? a CMP 7 JGT L2 MVX LD X(array) ? 
时 
HAM 100 101 102 103 104 


E 8-16 $i 8-2 + RIMAE ISA 程序 执行 的 流水 线 图 


表 8-4 8-16 流水 线 图 中 的 数据 


执行 for 循环 之 前 的 指令 的 时 钟 周期 数 6 
执行 for 循环 中 的 每 次 迭代 所 需要 的 时 钟 周 期 数 12 
结束 for 循环 的 时 钟 周 期 数 2 
for 循环 之 前 的 指令 条 数 3 
for 循环 主体 中 的 指令 数量 10 
退出 for 循环 的 指令 条 数 2 


公式 (8-2) 中 ,表示 程序 执行 的 总 的 时 钟 周期 数 ，n 表示 程序 for 循环 进行 m 次 执行 
的 总 的 指令 条 数 。 
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N=6+m(12)+2 

=12m+8 时 钟 周期 

n=3+m(10)+2 

=10m+5 指令 
当 m= 8 时 ， 程 序 示 例 中 的 CPI 计算 如 下 : 


12m+8 i ih il 
apr; "PER 


( 8-2 ) 


CPI = 





( 8-3 ) 


10(8)+5 85 
AK (8-4) 表明 了 当 程 序 示 例 中 m 趋向 于 无 穷 大 时 的 CPI 值 。 由 于 执行 m 次 “JMP” 
指令 和 一 次 “JGT” 指 令 会 导致 跳 转 ， 每 次 跳 转 都 会 清空 流水 线 ， 故 而 m 趋向 于 无 穷 大 时 
CPI 大 于 1。 然 而 ， 即 使 单 周 期 处 理 器 的 CPI 为 1， 单 周期 的 数据 通路 相对 于 等 价 的 流水 线 
数据 通路 还 是 需要 更 长 的 时 钟 周期 ， 正 如 第 6 章 中 所 述 。 
o 12m+8 
12m+5 
在 公式 8-4 中 ，CPI 为 下 限 (最 小 值 )。 如 果 一 个 程序 的 CPI 为 1.0， 相 应 的 流水 线 图 没 
有 冒 泡 ， 表 明 流 水 线 效 率 为 100%。CPI 的 最 小 值 为 1.2， 这 个 略 大 于 1.0 的 数 ， 表 明 流 水 线 
的 效率 小 于 100%， 并 且 ， 在 最 优 情况 下 ， 平 均 每 条 指令 的 执行 需 1.2 个 时 钟 周 期 。CPI 值 可 
用 来 估计 条 指令 的 执行 时 间 ， 如 公式 (8-5 ) 所 示 ， 等 式 中 r 表 示 每 个 时 钟 周 期 的 秒 数 。 
执行 时 间 = n * CPI *Tr ( 8-5 ) 
由 于 指令 间 的 数据 相关 、 程 序 中 的 分 支 指令 以 及 从 高 速 缓冲 存储 器 和 存储 器 中 存 取 数 据 
时 的 延 时 的 存在 ， 实 现 CPI 为 1.0 是 一 件 非常 困难 的 任务 。 然 而 ， 转 发 单元 可 通过 解决 某 些 
指令 间 的 数据 相关 性 ， 从 而 提升 程序 效率 ， 其 他 关于 提升 CPI 的 技术 将 在 之 后 讨论 。 


8.3.4 RISC-ISA S32 


图 8-17 说 明了 采用 5 级 指令 流水 的 RISC-ISA HEA. DM (数据 高 速 缓冲 存储 器 ) 现在 
被 放 在 一 个 独立 的 阶段 。 这 和 最 初 的 MIPS 处 理 器 的 $ 级 数据 通路 相似 。 执 行 阶段 包括 所 有 
的 算术 操作 和 存储 地 址 计算 ,但 不 包括 从 高 速 缓冲 存储 器 中 访问 数据 ， 从 数据 高 速 缓冲 存储 
谷中 访问 数据 在 DM 阶段 执行 。5 级 数据 通路 更 适合 RISC-ISA， 因 为 数据 项 在 用 于 执行 算 
术 指令 前 必须 先 加 载 到 寄存 器 中 。 然 而 ， 累 加 器 ISA 示例 中 所 有 的 包含 直接 寻 址 (D) 和 变 
址 寻 址 (X) 的 指令 都 必须 转换 为 寄存 器 - 寄存 器 的 算术 指令 。 这 一 数据 通路 具有 简化 流水 
线 每 一 阶段 的 复杂 性 并 实现 阶段 间 传 输 时 延 更 均匀 的 优点 。 





CPI =1.2 m->0o ( 8-4 ) 


流水 线 指令 数据 通路 
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1. 程序 示例 

例 8-10 展示 了 与 例 8-1 中 高 级 语言 程序 相对 应 的 RISC-ISA 汇编 程序 。 程 序 中 假定 寄存 
器 R0 始终 为 0， 寄 存 器 R1 到 R4 为 通用 寄存 器 ， 但 并 未 执行 代码 优化 。 

与 例 8-1 中 程序 相对 应 的 RISC-ISA 汇编 程序 ; 未 进行 编译 器 优化 。 


.code //start program code section 


ST (sum), RO //Initialize: M[sum] «RO 
ST (i), RO //M[i] «RO 
L1: 
LD Ri, (i) //R1 < MI[i] 
CMP Ri, ¢ {fae <i > FP 
JGT L2 //exit for-loop if greater (PPe L2) 
LD R2, (sum) //load sum, R2<M[sum] 
LD ， R3, Rl, (array) //load next array element, R3 < 
//M({array + R1] 
ADD R4, R2, R3 //compute sum + array [i] 
ST (sum), R4 //store sum, M[sum] <R4 
ADD Rl- Ris 2 //inecrement i 
ST {i}, RI //store i (M[i] R1). 
JMP L1 //loop back 
L2: Ix //some instructions x, y, and z 
Iy 
Lz 


.data //start program data section 


array: RB 8 //reserve 8 bytes 

i: RB 1 //reserve 1 byte 

sum: RB 1 //reserve 1 byte E] 
2. 编译 器 优化 


因为 DM 高 速 缓冲 存储 器 在 一 个 独立 的 阶段 中 ，RISC-ISA 数据 通路 必须 包含 一 个 转 
发 单元 和 一 个 冒险 单元 。 这 是 因为 “LD R3, R1, (array)” 和 “ADD R4, R2, R3” 指 令 
是 数据 相关 的 ， 因 此 需要 1 个 时 钟 周 期 的 延 时 来 更 新 R3 中 的 内 容 ， 从 DM 中 读 出 ， 转 
发 到 执行 阶段 ， 如 图 8-18 所 示 。 当 指令 “LD R3, R1, (array)” 进 入 执行 阶段 时 ， 指 令 
“ADD R4, R2, R3” 处 于 译 码 阶段 ， 当 “ LD” 指令 进入 DM 阶段 时 ， 冒 险 单元 必须 阻止 
“ADD” 指 令 进 入 执行 阶段 ， 这 是 通过 一 个 冒 泡 (一 个 隐 含 的 NOP 指令 ) 来 实现 的 ， 如 图 
所 示 。 

然而 ， 因 为 存储 器 load 指令 的 存在 ， 编 译 器 有 可 能 通过 优化 程序 从 而 消除 冒 泡 ， 正 如 
图 8-18 中 的 例子 。 在 这 个 示例 中 ， 编 译 器 可 调整 程序 执行 顺序 ， 通 过 延迟 与 LD 指令 相关 
的 某 些 或 全 部 指令 的 执行 ， 从 而 消除 冒 泡 。 例 8-11 展示 了 一 个 优化 过 的 代码 ， 将 例 8-10 中 
的 指令 “ADD RI, R1, 1” 移 动 到 指令 “LD R3, R1, (array)” 和 指令 “ADD R4, R2, R3” Z 
间 ， 指 令 “ADD R4, R2, R3” 的 执行 延 时 了 一 个 时 钟 周期 ， 从 而 消除 了 一 个 冒 泡 。 

对 例 8-10 中 程序 进行 编译 器 优化 ， 指 令 “ ADD R4, R2, R3” 的 执行 延 时 了 
一 个 时 钟 周 期 : 

.code //start program code section 


ST (sum), RO //Initialize: M[sum] «< RO 
ST (i), RO //M[i] <RO 
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L1: 


LD R1, (i) //R1 e M[i] 

CMP | < FiB i. s 72 

JGT L2 //exit for-loop if greater (PPe L2) 

LD R2, (sum) // load sum, R2<M[sum] 

LD R3, R1, (array) //load next array element, R3< 

//M[array + R1] 

ADD Ri» BL, 1 // increment i; instruction moved 
here 

ADD R4, R2, R3 // compute sum + array [i] 

ST (sum), R4 // store sum, M[sum] «< R4 

ST {i}; Ri // store i (M[i] eR1). 

JMP L1 // loop back 
L2: Tx // some instructions x, y, and z 

Iy 
OME i / 

.data //start program data section 
array: RB 8 // reserve 8 bytes 
i: RB 1 // reserve 1 byte 
sum: RB 1 // reserve 1 pa 


编译 优化 工作 必须 小 心 操作 以 避免 错误 修改 程序 。 由 于 超出 边界 的 数据 访问 可 能 会 导 
致 程序 生成 非法 的 输出 ， 甚 至 执行 失败 。 如 例 8-10 中 ， 移 动 指 令 “ LD R2, (sum)” Al “LD 
R3, R1, (array)” 到 “JGT ”指令 前 并 不 是 消除 “ADD R4, R2, R3” 指 令 执 行 所 需要 的 单 周 
期 延 时 的 正确 的 编译 器 优化 步骤 。 原 因 是 当 “LD R3, Rl, (array)” 指 令 放 置 在 “JGT” 之 前 
时 ， 最 后 一 次 循环 后 , “LD R3, R1, (array) ”指令 将 试图 访问 array[8]，array[8] 是 超出 数组 
边界 的 元 素 ， 例 8-1 中 数组 array 只 含有 8 个 元 素 array[0] 到 array[7]。 

3. 性 能 分 析 

图 8-17 中 RISC 数据 通路 包含 5 个 流水 线 阶段 ， 相 对 的 ， 图 8-10 中 与 其 等 价 的 累加 
am ISA 流水 线 数据 通路 包含 4 个 流水 线 阶 段 。 累 加 器 ISA 数据 通路 的 执行 阶段 包含 数据 高 
速 缓冲 存储 器 ， 因 而 其 传输 延 时 最 长 ， 将 RISC 数据 通路 中 该 阶段 分 为 两 个 阶段 (执行 阶段 
和 DM 阶段 )， 使 得 每 个 阶段 的 传输 延 时 更 小 。 通 过 降低 流水 线 阶段 中 最 长 传输 时 延 的 方式 ， 
使 得 处 理 器 可 以 使 用 更 快 的 时 钟 ， 从 而 提升 了 处 理 咒 的 吞吐 量 。 

此 外 ， 如 例 8-11 所 述 ， 通 过 编译 器 优化 ， 使 用 另 一 条 指令 (如 “ADD RI, R1, 1”) 的 
执行 来 代替 存储 器 访问 必需 的 一 个 时 钟 周期 延 时 ， 从 而 进一步 提升 程序 的 RISC CPI， 这 一 
方式 是 有 可 能 的 。 指 令 “ ADD R1, R1, 1” 和 指令 “LD R3, RI, (array)” 是 数据 相关 的 ， 因 
此 ， 将 指令 “ADD RI, R1, 1” 从 例 8-10 中 的 位 置 移动 到 例 8-11 中 的 指令 “ ADD R4, R2, 
R3” 之 前 并 不 会 改变 最 初 程序 执行 的 正确 性 一 一 只 是 指令 执行 的 顺序 变 了 。 指 令 “ADD RI, 
R1, 1” 更 早 执行 ,“ADD R4, R2, R3” 指 令 延 后 一 个 时 钟 周 期 执行 从 而 提供 时 间 给 “LD R3, 
R1, (array)” 指 令 从 DM 中 加 载 数据 。 更 新 过 的 数据 将 转发 到 执行 阶段 ， 供 “ ADD R4, R2, 
R3” 指 令 执 行使 用 。 

正如 将 在 第 10 章 中 所 讨论 的 ， 如 果 目 标 数 据 并 不 在 DM (一 个 高 速 缓冲 存储 器 ) 中 ， 程 
序 需要 从 一 个 低级 的 高 速 存储 缓冲 器 或 主 存 中 复制 数据 ， 这 个 过 程 需要 多 个 CPU 时 钟 周期 。 
然而 ， 在 下 面 的 章节 中 ， 我 们 将 深入 讨论 当 数 据 不 在 高 速 缓冲 存储 器 中 时 如 何 使 用 多 线程 来 
提高 流水 线 的 效率 。 
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CCT | ww ee Da ee ee 
| 数据 存储 器 | .| . RR DR3. | O wy |ADDRAR2R3 | 
a |e ee |ipm LR, | ADRS | e O O 
译 码 | .ip 了 .IDppa.:。 ADDR4R2R JADDR4RZR3 | .| | 
BES | | | | 


| LDR2,... | LDR3,... |ADDR4,R2,R3 | 





1 
eo 


图 8-18 LD 指令 和 ADD 指令 之 间 的 RISC 数据 相关 


8.4 先进 的 处 理 句 架构 

RISC 流水 线 提高 了 指令 吞吐 量 ， 但 额外 的 性 能 提升 将 来 自 于 减少 流水 线 时 钟 周 期 。 一 
种 提升 流水 线性 能 的 方法 是 将 数据 通路 中 的 一 个 或 多 个 流水 线 阶段 划分 为 更 小 的 子 数据 通 
路 ， 从 而 产生 一 个 拥有 更 多 阶段 的 更 深 的 流水 线 。 因 为 每 个 更 小 的 阶段 会 有 一 个 较 短 的 传播 
时 延 ， 更 深 的 流水 线 将 可 使 用 更 快 的 时 钟 ， 从 而 提高 指令 吞吐 量 。 

如 果 一 个 流水 线 阶段 的 数据 通路 物理 上 不 可 分 (例如 ， 包 含 一 个 存储 器 )， 流 水 线 阶 段 
可 被 修改 为 包含 不 可 分 的 硬件 的 两 个 或 更 多 个 副本 ， 从 而 使 得 该 阶段 可 分 。 所 有 的 副本 是 同 
步 并 重 倒 操作 的 ， 在 流水 线 阶段 内 并 行 运行 ， 称 之 为 超 流 水 线 。 虽 然 超 流水 线 阶段 的 传输 时 
延 保持 和 最 初 阶段 的 传输 时 延 一 致 ， 但 是 ， 这 个 包含 重复 副本 的 流水 线 阶段 可 以 更 高 频率 生 
成 输出 结果 。 然 而 ， 深 度 流 水 线 (包括 超 流水 线 ) 增加 了 功 耗 。 

一 方面 ， 深 度 流 水 线 提升 了 指令 吞吐 量 ， 但 是 程序 流 控 制 指令 (有 条 件 的 或 无 条 件 的 ) 
降低 了 流水 线 效率 、 提 升 了 CPI 值 ， 因 而 降低 了 流水 线 吞 吐 量 。 现 代 处 理 器 使 用 分 支 预测 机 
制 来 尽量 减少 流水 线 清空 操作 ， 从 而 提升 流水 线 效率 。 

此 外 ， 现 代 处 理 需 使 用 指令 级 并 行 OLP) 来 增加 指令 吞吐 量 。 这 种 情况 下 ， 处 理 器 属 
于 超标 量 体 系 结构 ， 因 为 处 理 器 中 每 个 阶段 包含 额外 的 资源 并 能 够 并 行 执行 多 个 独立 不 相关 
的 指令 。 对 于 一 个 程序 来 说 ， 即 使 采用 完美 的 分 支 预测 机 制 ， 使 用 ILP 的 流水 线 的 效率 仍旧 
达 不 到 100%。 这 是 因为 ， 采 用 大 条 指令 并 行 的 流水 线 会 根据 指令 之 间 的 数据 相关 性 执行 一 
条 、 两 条 直到 上 条 指令 ， 甚 至 有 了 时 由 于 无 法 及 时 从 高 速 缓冲 存储 器 或 主 存储 器 中 获取 数据 而 
根本 不 执行 任何 指令 。 因 此 ， 部 分 或 全 部 数据 通路 中 的 资源 在 一 个 或 多 个 时 钟 周期 内 保持 空 
闲 状态 ， 除 非 流 水 线 已 经 准备 好 同时 执行 多 个 程序 (线程 )。 这 种 情况 下 ， 流 水 线 也 被 称 为 
使 用 了 多 线程 。 

在 下 面 的 几 节 中 ， 我 们 将 进一步 探讨 深度 流水 线 、 分 支 预测 、 静 态 或 动态 调度 的 ILP 以 
及 多 线程 。 


8.4.1 深度 流水 线 

图 8-19a 展示 了 初始 的 4 阶段 流水 线 ， 其 中 第 3 阶段 传输 时 延 最 长 ， 为 2 A + A ctockingo 
其 中 A clocking = Tst Teq Hes 3 Tet. Teg 和 Tes 分 别 表示 建立 时 间 、 时 钟 到 gq 时 间 和 时 钟 相位 差 。 在 
图 8-19b 中 , 第 3 阶段 的 硬件 (如 多 级 MUX, CLA 加 法 器 、 组 合 除 法 器 等 ) 被 分 为 两 个 更 
小 的 模块 ， 每 个 模块 有 更 小 的 传输 时 延 。 

例如 ， 为 了 简单 起 见 ， 我们 考虑 第 3 阶段 包含 一 个 2 级 的 4-1 MUX, KA3 42-1 
MUX (第 3 Æ) 设计 。4-1 MUX 可 被 分 割 为 两 部 分 ， 并 按 两 个 阶段 进行 操作 ， 这 两 个 阶段 
中 每 个 阶段 的 时 延 大 约 为 图 8-19a 中 第 3 阶段 传输 时 延 的 一 半 。 新 的 流水 线 有 5 个 阶段 ， 并 
使 用 更 短 的 时 钟 周期 rew = A + A cocking 进行 操作 。 在 这 种 情况 下 ， 唯 一 额外 使 用 的 硬件 是 流 
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a) 初始 的 包含 长 的 且 可 分 的 第 3 阶段 的 流水 线 


clocking 
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A+A clocking A+A clocking A+A A+A cocking A+A docking 


clocking 


b ) 第 3 阶段 的 硬件 分 割 为 两 部 分 ， 成 为 一 个 更 深 的 流水 线 


图 8-19 更 深 的 流水 线 设计 : a) 初始 的 第 3 阶段 可 分 割 的 4 阶段 流水 线 ; b) 初始 的 流水 线 转换 为 5 
阶段 流水 线 ， 降 低 了 时 钟 周期 


男 一 方面 ， 图 8-20a 展示 了 一 个 4 阶段 流水 线 ， 其 中 第 3 阶段 的 数据 通路 不 可 分 割 为 更 
小 的 阶段 。 例 如 ， 假 设 图 中 的 第 3 阶段 为 DM 阶段 。 在 这 种 情况 下 ， 存 储 器 可 被 组 织 成 两 路 
低位 交叉 存储 的 方式 (参见 第 7 章 )， 使 得 其 奇 地 址 的 内 容 在 一 个 模块 中 而 偶 地 址 的 内 容 在 
另 一 个 模块 中 。 只 要 存储 需 连 续 交 蔡 地 从 奇 地 址 和 偶 地 址 中 访问 数据 ， 对 两 个 交叉 存储 器 的 
RETES, AREAK, WA 8-20b 中 的 两 个 模块 所 示 。 总 之 ， 任 何 流水 线 阶段 都 


是 可 以 采用 超 流水 线 技 术 的 。 


阶段 3 
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a) 初始 的 包含 长 的 且 不 可 分 的 第 3 阶段 的 流水 线 
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Bs, 净 时 延 = A+A clocking 
b ) 使 用 超 流水 线 ， 并 行 操作 第 3 阶段 中 不 可 分 割 的 硬件 的 副本 


8-20 超 流水 线 设 计 : a) 第 3 阶段 不 可 分 的 4 阶段 流水 线 ; b) 第 3 阶段 采用 超 流水 线 


表 8-5 说 明了 使 用 图 8-20b 中 的 数据 通路 的 超 流水 线 过 程 ， 第 3 阶段 中 两 个 完全 一 样 的 
不 可 分 割 模块 分 别 标记 为 M3a、M3b。 当 时 钟 周 期 += A + A ctocking 时 ， 在 时 间 为 3c 时 ， 指 令 
11 进入 第 3 阶段 ， 使 用 M3a 执行 ， 需 2 个 时 钟 周期 或 约 2r 来 完成 。 注 意 A 也 包含 MUX 
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的 延 时 。 

因为 流水 线 控 制 器 轮换 交替 使 用 M3a 和 M3b， 一 个 时 钟 周 期 后 ， 即 时 间 为 4r 时 ， 当 1I2 
进入 第 3 阶段 时 ， 流 水 线 控制 器 将 选择 M3b， 这 也 需要 2r 时间 来 完成 。 因 此 ， 虽 然 M3a 和 
M3b 每 个 都 需要 两 个 时 钟 周期 来 产生 一 个 结果 ， 但 每 个 时 钟 周 期 第 3 阶段 都 会 有 结果 输出 。 


表 8-5 表 中 说 明了 在 图 8-20b 中 的 超 流水 线 第 3 阶段 ， 其 采用 了 两 个 相同 模块 (标记 为 M3a、M3b) 
mac [TT TS T r | e fe 
mea || [noa | no | oo | am | ~ 
maze | |a [a [ep [wu fs f- 
smn a |e fo [wu fs a e 
fa ed = 


& 因为 超 流水 线 产 生 的 冒 泡 。 342 


当时 间 为 Sr 时 ， 第 3 阶段 M3a 的 输出 将 提供 给 第 4 阶段 ， 人 允许 指令 II 继续 执行 。 在 
时 间 为 6r 时 (下 一 个 时 钟 周 期 )， 第 3 阶段 M3b 的 输出 将 提供 给 第 4 阶段 ， 人 允许 指令 12 继 
续 执行 。 这 使 得 流水 线 达 到 每 个 时 钟 周期 + 执行 一 条 指令 的 效率 ， 如 表 中 所 示 。 
深度 流水 线 技术 使 得 流水 线 可 采用 更 快 的 时 钟 来 提升 流水 线性 能 。 在 图 8-19a F, RYJ 
的 时 钟 周 期 twa= 2 A+ A ctocking, TEA] 8-19b 中 ， 时 钟 周期 降低 为 toew = A + A cocking, TAPAR 
接近 原 时 钟 的 两 倍 。 在 图 8-20b 中 ， 时 钟 频率 也 从 之 前 的 图 8-20a 中 的 2 A + A clocking 有 效 降 
低 为 接近 A + A ctockingo 
然而 ,深度 流水 线 (包括 超 流水 线 ) 增加 了 每 次 流水 线 重启 时 所 需 的 冒 泡 数量 。 在 图 
8-20b 中 ， 由 于 超 流水 线 技术 的 使 用 ， 当 流水 线 阶段 数 从 最 开始 的 图 8-20a 中 的 4 级 改 为 5 
级 ， 在 时 间 为 4+ 时， 比 之 前 多 需要 一 个 冒 泡 。 深 度 流 水 线 通 过 同时 操作 多 条 指令 增加 了 流 
水 线 的 并 发 性 ,但 是 关于 指令 流水 线 的 深度 有 一 定 的 限制 条 件 ， 如 下 所 示 : 
e 深度 流水 线 (包含 超 流水 线 ) 不 仅 增加 了 硬件 的 数量 ， 也 提升 了 流水 线 的 时 钟 频 率 。 
当 流 水 线 中 的 硬件 数量 和 时 钟 频率 提升 时 ， 流 水 线 的 功 耗 也 相应 的 有 所 增加 (第 6 
章 )。 因 此 ， 流 水 线 的 次 度 有 一 定 的 限制 。 

e 因为 流水 线 需 要 执行 跳 转 / 分 文 指 令 ， 深 度 流 水 线 〈 包 含 超 流水 线 ) 的 深度 超过 特定 
的 限制 时 ， 效 果 可 能 适得其反 。 任 何 关 于 指令 流 顺 序 的 改变 都 会 造成 一 次 流水 线 清 
空 操作 ， 这 种 情况 下 ， 流 水 线 会 引入 更 多 的 冒 泡 并 因此 降低 了 流水 线 的 效率 和 性 能 。 


8.4.2 ”分 文 预测 技术 


分 支 预测 指 的 是 在 执行 一 个 有 条 件 或 无 条 件 的 指令 之 前 ， 确 定 程序 流 的 方向 。 流 水 线 可 
以 在 更 早 的 时 间 确 定 目标 跳 转 /分 文 地 址 ， 在 取 指 令 阶段 获取 目标 地 址 中 的 指令 ， 从 而 在 程 
序 流 有 变化 时 ， 最 小 化 流水 线 中 冒 泡 的 数量 。 

[注意 ， 为 了 简单 起 见 ， 此 处 的 跳 转 指令 和 分 支 指令 我 们 是 相同 对 待 的， 但 是 ， 一 般 来 
说 ， 这 两 种 指令 的 分 支 预测 的 实现 方式 还 是 不 一 样 的 。 分 支 地 址 通常 的 计算 的 结果 是 与 当前 
PP 中 的 指令 地 址 的 一 段 距 离 〈 位 移 )， 而 跳 转 地 址 的 计算 结果 是 一 个 确定 的 地 址 〈 与 PP 中 内 
容 不 相关 )。 一 般 而 言 ， 分 支 指令 用 于 跳 转 距离 比较 小 的 情况 ， 例 如 实现 一 个 for 循环 ; 而 
跳 转 指令 用 于 一 个 长 距离 的 跳 转 ， 例 如 一 个 子 函 数 调用 。 在 下 面 的 章节 中 ， 术 语 “ 跳 转 ”和 
分支 ”是 可 交换 的 ， 都 会 造成 程序 流 的 改变 。] 
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在 图 8-11 或 图 8-17 中 ， 当 当前 指令 为 一 个 跳 转 时 (如 “JGT” 或 “JMP”), 程序 流 可 
以 改变 方向 的 最 早 时 间 是 跳 转 指令 进入 写 回 阶段 。 例 如 ， 在 累加 器 ISA 数据 通路 中 ， 当 跳 
“JMP” 令 进入 执行 阶段 (如 图 8-15 中 的 第 15 个 时 钟 周 期 )， 在 下 一 个 时 钟 周期 ,“ JMP” 
移动 到 写 回 阶 段 ，PP 中 的 内 容 也 改变 为 目的 地 址 Ll1， 取 指令 阶段 转 而 获取 指令 “CMP 7”。 
这 将 使 得 流水 线 进行 清空 操作 ， 丢 奔 所 有 部 分 执行 (处理 ) 的 指令 ， 流 水 线 继而 从 分 文 地址 
开始 执行 。 然 而 ， 通 过 使 用 额外 的 硬件 ， 分 支 方向 可 以 被 预测 ， 从 而 降低 流水 线 的 冒 泡 数量 
并 提升 流水 线 的 性 能 。 

1. 静态 分 支 预 测 

静态 或 默认 的 分 支 预测 可 以 自身 使 用 或 与 动态 分 支 预测 结合 使 用 。 考 虑 一 个 分 文 指令 ， 
如 例 8-11 中 的 “JGT L2”， 其 中 L2>PP 为 一 个 前 向 分 支 地 址 。 在 这 种 情况 下 ， 只 要 for 循环 
一 直 执 行 ， 对 于 该 指令 采取 “不 跳 转 ”作为 默认 分 支 决 定 将 是 正确 的 。 只 有 当 程 序 跳出 for 
循环 时 ， 处 理 器 分 支 预 测 的 方向 才 是 错误 的 。 

同样 ， 当 条 件 指令 造成 后 向 分 支 ， 例 如 ， 当 执行 do-while 时 ， 条 件 语句 在 循环 的 末尾 ， 
对 于 该 跳 转 指令 ， 只 要 do-while 继续 执行 ， 采 取 “ 跳 转 ” 作 为 默认 分 支 决 定 都 是 正确 的 。 只 
有 当 程 序 跳出 do-while 循环 时 ， 处 理 器 分 支 预测 的 方向 才 是 错误 的 。 

通常 情况 下 ， 静 态 预 测 的 规则 在 程序 编译 优化 过 程 中 被 考虑 。 例 如 ， 例 8-1 中 的 跳 转 条 
件 “i<8” 将 被 编译 为 例 8-2 和 例 8-11 中 的 “CMP 7” 和 “BGT L2”。 同 样 ， 条件 也 会 被 编 
译 成 相似 的 指令 ， 如 例 8-3 (奔腾 处 理 器 ) 和 例 8-4 (Sparc AERE) 中 所 示 。 

静态 分 支 预 测 可 被 执行 的 最 早 时 间 是 当 分 支 指 令 进入 译 码 阶段 并 且 其 操作 码 已 知 。 然 
而 ， 这 将 导致 执行 静态 分 支 预测 时 必须 有 一 个 周期 的 延迟 。 例 如 ， 如 果 流 水 线 实现 上 述 的 静 
态 分 支 预 测 ( 即 没有 动态 分 支 预测 )， 编 译 器 可 能 会 选择 执行 男 一 条 指令 从 而 履 盖 这 一 个 周 
期 的 延 运 。 

考虑 例 8-11 中 的 无 条 件 跳 转 指 令 “ JMP L1”。 通 过 编译 器 优化 操作 来 利用 这 一 个 周期 
的 延迟 是 有 可 能 的 ， 如 例 8-12 中 所 示 。 为 了 利用 这 一 个 周期 的 延迟 并 在 该 周期 执行 一 条 有 
用 的 程序 ， 编 译 器 可 以 从 for 循环 主体 中 移动 一 条 指令 (如 “ST (i), R1” ) BRS “JMP LI” 
之 后 。 然 而 ， 流 水 线 必 须 被 修改 从 而 始终 执行 跟 在 无 条 件 跳 转 / 分 支 指令 后 的 指令 。 

例 8-1 中 的 RISC-ISA 汇编 程序 ， 对 指令 “JMP” 进 行 了 静态 分 支 预测 的 优 
化 。 将 例 8-11 中 的 指令 “ST (i), RO, R1” 移 动 到 指令 “JMP LI” 之 后 ， 从 而 消除 了 指令 
“JMPL1” 执 行 静 态 分 支 预测 时 所 必需 的 一 个 周期 的 延迟 。 


.Code //start program code section 


ST (sum), RO //Initialize: M[sum] < RO 
ST (i), RO //M[i] -RO 
L1: 
LD R1, (i) //R1<M[i] 
CMP. Ri; T flis i > 7? 
JGT L2 //exit for-loop if greater (PPe 
L2) 
LD R2, (sum) //load sum, R2<M[sum] 
LD R3, R1, (array) //load next array element, R3<M[array 
+ R1] 
ADD R1, R1, 1 //increment i; instruction moved here 
ADD R4, R2, R3 //compute sum + array [i] 


ST (sum), R4 //store sum, M[sum] < R4 
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JMP L1 //loop back 
ST (i); R1 //store i, M[i] R1; 
//instruction moved here 


L2: Ix //some instruction x 

.data //start program data section 

array: RB 8 //reserve 8 bytes 

i: RB 1 //reserve 1 byte 

sum: RB 1 //reserve 1 byte = 


在 这 些 情况 下 ， 知 编译 器 无 法 移动 任何 指令 到 无 条 件 跳 转 /分 支 指令 之 后 ， 编 译 需 必须 
在 无 条 件 跳 转 / 分 支 指令 后 捅 人 一 个 NOP 指令 ， 如 例 8-4 中 未 经 优化 的 AltraSparc IF P 
所 示 。 注 意 ，Sparc 程序 在 有 条 件 跳 转 指令 “ gt” 之 后 也 插入 了 NOP 指令 。 这 是 因为 Sparc 
处 理 器 也 会 执行 跟 在 条 件 分 支 指令 之 后 的 指令 。 并 且 ， 当 代码 可 进一步 优化 时 ， 处 理 器 也 将 
提供 给 编译 器 进一步 优化 代码 的 选项 。 

2. 动态 分 支 预测 

当 无 条 件 跳 转 / 分支 指 令 (如 “JMP”) 每 次 都 是 跳 转 并 改变 程序 流 时 ， 预 测 分 文 决 定 
为 “ 跳 转 ”是 很 简单 的 。 但 是 ， 当 有 条 件 跳 转 指令 (如 “JGT”) 是 数据 相关 时 ， 预 测 “ 跳 转 ” 
还 是 “不 跳 转 ” 就 比较 难 了 ， 而 且 不 会 总 是 预测 正确 ， 尤 其 是 当 有 条 件 分 支 指 令 控 制 的 是 一 
个 循环 内 的 “if-else ”语句 时 。 这 里 的 跳 转 和 不 跳 转 指 的 是 根据 指令 语句 中 if RABBI, 
执行 之 后 的 “then” 或 “else” 部 分 的 代码 。 通 过 在 for 循环 和 do-while 语句 使 用 后 问 分 文 
预测 技术 ， 动 态 分 支 预测 器 可 以 更 好 地 摘 述 早期 的 工作 。 然 而 ， 好 的 前 回 分 文 预 测 对 于 提升 
流水 线 的 效率 也 是 极其 必要 的 。 

现代 处 理 需 使 用 动态 分 文 预测 机 制 ， 通 过 收集 已 经 执行 的 有 条 件 的 或 无 条 件 分 文 指令 的 
历史 执行 结果 ， 对 当前 的 分 支 指令 进行 预测 。 最 初 ， 当 一 个 程序 开始 执行 并 且 没 有 分 支 的 历 
中 数据 时 ， 将 使 用 静态 分 支 预 测 机 制 预测 有 条 件 / 无 条 件 跳 转 指令 的 执行 。 为 了 流水 线性 能 
的 最 优化 ， 分 文 的 历史 数据 和 预测 逻辑 保存 在 取 指 令 阶 段 。 

在 我 们 讨论 动态 分 支 预 测 技术 之 前 ， 我 们 通过 表 8-6 说 明了 执行 例 8-11 中 for 循环 中 的 
两 次 迭代 过 程 ， 但 做 了 以 下 假设 : 


R 8-6 使 用 RISC 流水 线 执行 两 次 迭代 过 程 
oo 5m 
| [eem | | 
2 | srom | sm | | 
1 
ST Gam, RO 


JGT L2 (#5: 不 
6 LD R2, (sum) 跳 转 ) CMP R1, 7 LD RI, (i) ST (i), RO 


7 LD R3, R1, (array)| LD R2, (sum) JGT L2 CMP R1, 7 LD RI, (i) 


跳 转 ， 开 始 历史 ) 


T LD R2, am) 
12 JMP LI ST (i), RI ADD RI, RI, 1 
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( 续 ) 


取 指令 执 行 数据 存储 器 写 E 


; JMP LI (静态 : Bk 
ua 转 ) 


f4: L1 LD RI, (i) JMP L1 ST (i), RI ST (sum), R4 


15 CMP R1,7 LD RI, (i) “ooo o Masti i ST (sum), R4 
， A 


16 IGT L2 LD RI, (i) 0 |MPLl 
| pm | om | wi | RD Jo 

LD RO RI ara DRO 
19 ADD RI, RI, 1 LD R3, R1, (array) CMP R1,7 
20 ADD R4, R2, R3 LD R3, R1, (array) JGT L2 
sr RA LD R2, Gun) 
22 ST (i), RI ADDRI,RI,1 [LD R3, RI, (array) 


JMP L1 (动态 : Bk , 
23 ST (i), R1 ST (sum), R4 ADD R4, R2, R3 |ADDRI,RI, 1 


24: L1 LD rl, (i) JMP L1 ST (i), R1 ST (sum), R4 ADD R4, R2, R3 
25 CMP RI, 7 LD RI, (i) JMP L1 ST (i), R1 ST (sum), R4 


7 
= 
w 
3 


Ww 
WN 
= 
S 
z] 
Nn 
= 
ke 
N 
S 
3 
=~ 
x 


ADD R4, R2, R3 


— 
oo 


a 


JGT L2 (动态 : 不 JMP L1 (Decision: A 
26 CMP R1,7 LD RI, (i) l ST (i), R1 
跳 转 ) taken, update history) 
27 LD R2, (sum) JGT L2 CMP RI, 7 LD RI, (i) JMP L1 
28 LD R3, R1, (array)| LD R2, (sum) JGT L2 CMP R1,7 LD RI, (i) 


x ADD RI, R1, 1 LD R3, RI, (array)| O |JGTI2 


U 
> 
A 
N 
— 


N 
© 


图 8-17 中 的 RISC 流水 线 既 实现 了 静态 分 文 预 测 逻 辑 ， 也 实现 了 动态 分 支 预测 逻辑 。 
早先 讨论 的 静态 分 支 预测 机 制 是 在 译 码 阶段 实现 的 ， 而 一 个 “完美 ”的 动态 分 支 预测 机 制 是 
在 取 指 令 阶段 实现 的 。 注 意 ， 在 这 种 情况 下 ， 编 译 器 不 需要 利用 完成 静态 分 支 预测 所 必需 的 
一 个 周期 的 延迟 来 优化 代码 。 

对 于 有 条 件 跳 转 指令 “JGT L2”， 在 执行 的 第 6 个 时 钟 周期 ， 静 态 分 支 预测 决定 为 “不 
Bee”, 程序 连 续 执行 下 一 顺序 指令 “LD R2, (sum)”。 当 第 9 个 时 钟 周期 指令 “JGT L2” 
执行 完 时 ， 动 态 分 支 预测 机 制 也 将 更 新 分 支 预测 决定 ， 为 “不 跳 转 ” 。 对 于 第 13 个 时 钟 周期 
的 无 条 件 跳 转 指 令 “JMP LI”， 动 态 分 支 预测 的 决定 为 “ 跳 转 ” ， 将 从 跳 转 地 址 直 1 处 的 指令 
“LD R1, i) ”开始 执行 ， 并 在 第 14 个 时 钟 周期 产生 一 个 冒 泡 。 在 第 16 个 时 钟 周期 ， 指 令 
“JMPL1” 退 出 流水 线 ， 动 态 预 测 机 制 也 将 更 新 分 支 预测 决定 为 “ 跳 转 ”。 对 于 第 23 个 时 钟 
周期 的 指令 “JMP LI1”， 动 态 分 支 预测 机 制 预测 为 “ 哑 转 `"， 程 序 继续 执行 指令 “LD R1, (i)”, 
并 且 不 会 在 第 24 个 时 钟 周 期 产生 额外 的 流水 线 冒 泡 。 

直到 最 后 一 次 迭代 之 前 ， 程 序 执行 中 都 没有 产生 与 分 支 相关 的 多 余 的 冒 泡 。 在 第 29 个 
时 钟 周 期 最 后 一 次 执行 时 ， 由 于 执行 跳 转 指令 “JGT L2” 导 致 预测 错误 。 程 序 执行 跳 转 导 


致 了 流水 线 清空 操作 ， 引 入 了 3 个 流水 线 冒 泡 ， 程 序 将 继续 执行 for 循环 之 后 的 “Ix” 指 令 。 

图 8-21 说 明 实 现 一 个 1 位 动态 分 支 预测 器 的 
有 限 状 态 图 (FSD )。 如 表 8-6 所 示 ， 当 指令 “JGT 
L2” 第 一 次 执行 时 ， 因 为 L2>PP 表明 L2 为 前 向 
跳 转 地 址 ， 译 码 阶段 中 的 动态 分 支 预测 仪 将 正确 
地 预测 “不 跳 转 ”。 第 8 个 时 钟 周期 的 决定 “不 
跳 转 ”将 在 第 9 个 时 钟 周 期 初始 化 1 位 的 预测 器 ， 
初始 化 为 “预测 不 跳 转 ” 。 对 于 剩余 的 迭代 ， 预 测 图 8.21 1 位 动态 分 支 预测 器 的 FSD 
器 将 准确 地 预测 为 “不 跳 转 ” 。 最 后 一 次 迭代 中 ， 
预测 器 对 “ JGT L2” 指 令 的 执行 (如 : 第 29 个 时 钟 周期 for 循环 的 两 个 迭代 ) 将 预测 错误 ， 
这 也 将 导致 1 位 的 预测 器 的 状态 转变 为 “预测 跳 转 ”。 

如 果 for 循环 只 执行 一 次 ，1 位 的 动态 预测 需 将 如 期 望 的 那样 预测 正确 ， 如 表 8-6 所 示 。 
然而 ， 假 设 例 8-11 中 的 for 循环 作为 一 个 内 部 循环 并 执行 多 次 。for 循环 第 二 次 执行 时 ，1 
位 预测 器 的 当前 状态 为 “预测 跳 转 ” ， 这 将 导致 for 循环 开始 执行 指令 “JGT L2” 时 ， 预 测 
错误 ， 预 测 器 的 状态 将 转变 为 “预测 不 跳 转 ” 。1 位 的 预测 器 还 将 在 for 循环 的 最 后 预测 错误 
一 次 。 因 此 ，1 位 的 预测 器 的 执行 效果 要 比 单独 的 静态 分 支 预测 的 效果 差 。 348 

3. 2 位 动态 预测 器 

图 8-22 说 明了 2 位 动态 预测 器 的 有 限 状 态 图 跳 转 
[7]。 我 们 继续 以 例 8-11 中 执行 的 for 循环 为 例 。 
for 循环 第 一 次 执行 时 ， 关 于 指令 “JGT L2” 的 2 
位 动态 预测 器 的 有 限 状 态 图 的 状态 将 被 初始 化 为 
“预测 不 跳 转 ”。2 位 动态 预测 器 将 一 直 保 持 “ 预 
测 不 跳 转 ”状态 ， 直 到 最 后 一 次 跳出 for 循 环 时 
预测 错误 ， 使 得 预测 器 的 状态 转 为 “预测 可 能 不 
跳 转 ”。 

for 循环 第 二 次 执行 时 ， 处 于 “预测 可 能 不 
跳 转 ”状态 的 动态 预测 器 将 在 指令 “JGT L2” 
第 一 次 迭代 执行 中 预测 正确 ， 当 指令 “JGT L2” Da 
在 第 一 次 迭代 中 执行 完成 时 ， 程 序 执行 不 跳 转 ， 不 跳 转 
这 表明 预测 正确 ， 使 得 2 位 有 限 状 态 图 的 状态 正 
确 地 改变 为 ripen dco ix FF for 循环 在 执 ， i 
行 第 一 个 迭代 时 将 不 预测 错误 。2 位 动态 预测 器 Senor 
AAN ag eon a 次 ， 正 如 期 望 
的 那样 ， 每 次 for 循环 执行 动态 预测 只 错误 预测 E822 2 位 动态 分 支 预测 算法 [7] 
一 次 。 

图 8-23 是 在 取 指 令 阶 段 实 现 的 2 位 动态 分 支 预测 器 的 数据 通路 。 数 据 通路 中 包含 了 一 
个 指令 分 支 历 史 表 (BHT)， 分 支 历 史 表 用 于 保存 每 条 分 支 指令 的 分 支 指令 地 址 (BIA)、 分 
支 目 标 地 址 (BTA) 以 及 一 个 2 位 动态 预测 器 的 2 位 当前 状态 (CS)。2 位 的 存储 空间 是 由 
两 个 触发 器 构成 ， 其 用 于 存储 表 中 每 条 指令 的 当前 状态 (CS)， 其 也 将 用 于 实现 有 限 状 态 机 
(FSM)。 分 支 历史 表 将 根据 表 的 大 小 保存 最 近 刚 执行 的 分 支 指令 的 相关 历史 。 在 一 个 程序 执 
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行 过 程 中 ，PP 的 低位 用 于 访问 该 表 。 例 如 ， 当 使 用 10 位 来 分 辨 每 个 条 目 时 ， 表 的 大 小 可 存 
储 1K 个 条 目 ， 然 而 ， 并 不 是 所 有 的 条 目 都 是 分 支 指令 。 

当 PP 中 的 内 容 和 BHT 中 的 某 一 BIA 相 匹配 时 ， 这 表明 PP 中 地 址 对 应 的 指令 是 一 条 跳 
转 /分 支 指 令 。 从 表 中 读 取 的 2 位 CS 用 于 预测 分 支 的 方向 。 例 如 ， 如 果 CS 表明 为 “预测 
跳 转 ”或 “预测 可 能 跳 转 ”时 ,动态 预 测 将 预测 “ 跳 转 ”， 并 且 PP 中 的 内 容 用 表 中 的 BTA 
代替 ， 下 一 条 执行 的 指令 将 变 为 存储 在 PP 的 地 址 BTA 中 存储 的 指令 。 另 一 方面 ， 如 果 CS 
表明 为 “预测 不 跳 转 ”或 “预测 可 能 不 跳 转 ”时 ， 动 态 预测 将 预测 “不 跳 转 " WER PP 中 
内 容 ， 程 序 将 继续 执行 下 一 条 指令 。 

当 PP 中 的 内 容 并 不 和 表 中 的 任 一 BIA 匹配 时 ， 这 说 明 当 前 的 分 支 指令 在 表 中 没有 历史 
记录 。 在 这 种 情况 下 ， 下 一 时 钟 周期 ， 静 态 预 测 将 被 采用 。 一 旦 分 支 指令 执行 ， 并 产生 “ 跳 
转 ” 或 “不 跳 转 ”的 决定 ， 随 着 指令 退出 ，2 位 的 CS、BIA、BTA 和 指令 的 CS 将 以 BIA 
为 索引 形成 一 个 条 目 存储 到 BHT 中 。 表 中 条 目的 CS 区 将 在 每 次 指令 执行 和 退出 时 更 新 其 
状态 。 

使 用 2 位 动态 预测 器 (4 状态 的 有 限 状态 图 ) 和 使 用 更 多 状态 的 动态 预测 器 的 性 能 相 
同 ， 甚 至 优 于 更 多 状态 的 动态 预测 器 [8]， 这 一 点 已 经 被 证 明 。 因 为 2 位 的 分 支 预测 工作 与 
之 前 执行 的 分 支 指令 是 独立 的 ，2 位 的 分 支 预测 器 也 被 称 为 本 地 预测 。 

也 证 明 ， 对 于 某 些 程序 而 言 ， 分 支 指令 的 决定 并 不 总 是 独立 的 ， 在 某 些 情况 下 ， 当 前 分 
支 指令 执行 时 ， 其 作出 的 分 支 决 定 和 最 近 执行 的 分 支 指令 的 决定 有 一 定 的 关联 。 


单位 为 字 节 的 字 大 小 
( 如 4 表示 4B ) 


图 8-22 中 的 2 位 预测 器 的 


目标 分 支 地 址 ( TBA ) Fi 


指令 的 地 址 一 


CS 


从 流水 线 中 分 | BTA 

支 决定 产生 的 

阶段 。TBA 和 

CS 存储 到 “| 跳 转 /分 支 
BHT 中 






AR 分 支 指令 地 址 
( BIA ) 
BIA 


程序 指针 ( PP ) 


给 译 码 阶段 的 指令 





否 : 和 正常 执行 一 样 继续 执行 


分 支 / 跳 转 指令 的 BIA 写 入 
到 PP 中 ， 传 给 译 码 等 阶段 


图 8-23 ”位 于 取 指 令 阶 段 的 2 位 动态 分 支 预测 逻辑 部 分 图 解 
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4. 基于 分 支 相关 性 的 预测 

对 于 “ if-else ”语句 重复 执行 的 情况 (如 在 一 个 循环 中 ), 已 经 证 明 ， 对 于 其 可 能 执 
行 的 数据 通路 的 预测 ， 分 支 预 测算 法 的 效果 要 比 使 用 独立 的 2 位 预测 器 效果 好 [8，9]。 例 
如 ， 考 虑 下 面 的 for 循环 中 的 3 个 if-else 语句 ， 并 假定 编译 器 将 每 一 个 “ifelse” 的 条 件 
语句 翻译 成 一 个 有 条 件 的 分 支 指令 ， 即 分 支 决定 “不 跳 转 ”是 指 “then” 部 分 的 “if-else” 


代码 。 
程序 代码 [8] if-else 语句 的 编译 器 输出 
fort.) * fort..3) 


{//compiler-generated instructions 
BNE ... // when x = 2, BNE does not branch 
BNE // when y=2, BNE does not branch 


BEQ // when x +y, BEQ does not branch 


If (x != y) { 


} 


到 达 指 令 “ BEQ” 有 4 种 可 能 的 执行 路 径 ， 如 图 8-24 所 示 。 注 意 ， 对 于 指令 “BEQ ”， BSI 
分 支 决 定 取决 于 执行 路 径 。 当 x 和 y 均 为 2 时 ， 可 以 确定 “x! = y” 为 假 。 因 此 ， 对 于 某 些 
程序 ， 最 近 执 行 的 分 支 指令 的 分 支 决 定之 间 经 常 有 很 强 的 相关 性 ， 此 信息 可 用 于 实现 一 个 更 
好 的 动态 预测 器 。 





YY 路 径 YN 路 径 NY 路 径 NN 路 径 
图 8-24 之 前 提 到 的 在 for 循环 中 所 有 可 能 到 达 指 令 “BEQ” 的 执行 路 径 


为 了 确定 执行 路 径 ， 分 支 预测 寄存 器 (BPR) 被 用 来 对 最 近 执 行 的 分 支 决 定 进行 编码 。 
以 前 面 的 for 循环 为 例 ，2 位 的 BPR 可 编码 图 8-24 中 的 4 种 执行 路 径 为 (11), (10), (01) 
和 (00),， 其 中 1 表示 是 (Y)，0 表示 和 否 (N)。 如 果 对 于 两 条 分 支 指令 “BNE ”的 分 文 决策 
依次 为 “不 跳 转 ”( 如 x=2) A “BRE” (y #2) 时 ， 相 应 的 BPR 中 的 内 容 为 (01)>。 

图 8-25 说 明了 2 位 相关 分 支 预测 器 的 数据 通路 。 在 图 中 ，PP 的 低位 将 和 2 位 BPR 中 
内 容 串 联 起 来 ， 生 成 一 个 BHT 中 的 索引 。 根 据 图 8-24 中 的 程序 采用 的 数据 通路 使 用 索引 来 
决定 针对 指令 “BEQ” 选 择 不 同 的 2 位 预测 器 。 其 他 可 参考 练习 章节 的 一 些 例子 。 

因为 BPR 确定 了 程序 中 的 一 个 执行 路 径 ， 这 也 就 是 说 ，BPR 对 程序 执行 提供 了 一 个 全 
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合 本 地 和 全 局 分 支 历史 数据 进行 预测 [9]。 


标识 当前 。 之 前 的 2 个 分 支 
分 支 指令 的 分 支 决策 分 支 历 史 表 


2.bltBHR BIA BTA CS 
YY y 
连 





连接 
每 个 为 图 8-24 中 


NN 
NY | 4 个 2 位 预测 ， 
YN | 的 一 个 执行 路 径 


BIA: 分 支 指令 地 址 ( 用 于 确定 分 支 指令 ) 
BTA: 分 支 目 标 地 址 

CS: 2 位 预测 当前 状态 

PP: 程序 指针 

BHR :分支 历史 寄存 器 


图 8-25 ”使 用 分 支 决 定 的 全 局 视图 的 相关 预测 


对 SPEC89 基准 测试 程序 的 研究 表明 ， 错 误 预 测 的 概率 一 一 例如 ， 对 于 “gcc” 编 译 

器 一 一 当 采 用 含有 4096 个 条 目的 BHT 进行 的 本 地 预测 器 (图 8-23 ) 时 为 12%， 与 之 相对 的 
是 ， 当 采用 含有 1024 个 条 目 但 同样 大 小 的 (1024*4 = 4096)BHT 进行 的 全 局 预测 器 (图 8-25 ) 

时 为 11%。 对 于 Spice 电路 仿真 程序 ， 本 地 预测 错误 率 为 9%， 全 局 预测 错误 率 为 5%， 对 于 
Espresso 逻辑 最 小 化 软件 ， 本 地 预测 为 S%， 全 局 预测 为 4%[10]。 正 如 前 面 讨论 的 那样 ， 这 
说 明 使 用 多 种 预测 器 上 比 仅仅 使 用 一 种 预测 器 的 预测 效果 好 。 

5. 竞争 预测 器 

现代 处 理 器 通常 实现 多 种 预测 器 ， 并 对 每 条 分 支 指令 动态 地 选择 效果 最 好 的 预测 硕 。 例 
如 ， 考 虑 实现 了 一 个 本 地 预测 器 和 一 个 全 局 预测 器 的 预测 机 制 ， 使 用 2 位 预测 器 (图 8-22 ) 
来 选择 最 佳 预测 器 。 这 一 机 制 被 称 为 竞争 预测 器 ， AONE baa Sea ， 经 常 选中 的 预测 
器 〈 本 地 或 全 局 ) 将 是 胜 者 。 

例如 ， 使 用 竞争 预测 器 ， 对 于 SPEC 整数 基准 测试 程序 ，40% 的 可 能 性 将 采用 全 局 预测 
器 ， 而 对 于 SPEC 浮 点 数 基 准 测试 程序 ，15% 的 可 能 性 将 采用 全 局 预测 器 [10]。AMD kh JÈ 
处 理 器 和 强 龙 处 理 器 都 采用 了 竞争 预测 器 。 


8.4.3 ”指令 级 并 行 


为 了 在 一 个 超标 量 处 理 器 上 并 行 执行 两 条 或 多 条 指令 ， 这 些 指令 必须 是 数据 不 相关 的 。 
当 采 用 指令 级 并 行 时 ， 有 4 种 可 能 的 依赖 关系 ， 如 表 8-7 所 示 。 无 论 ILP 是 否 使 用 ， 程 序 中 
某 些 指令 之 间 总 是 存在 一 定 的 数据 依赖 。 另 一 方面 ， 当 指令 并 行 执行 〈 在 同一 流水 线 周期 )， 
两 条 指令 间 可 能 存在 一 个 反 相 相关 性 和 / 或 输出 相关 性 。 大 一 对 指令 之 间 存 在 一 种 或 多 种 这 
样 的 相关 性 ， 当 指令 并 行 时 ， 将 导致 写 后 读 (RAW), BAS (WAR) 和 写 后 写 ( WAW ) 等 
冒险 。 并 且 ， 这 些 冒 险 不 能 在 执行 阶段 消除 。 
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表 8-7 ILP 中 相关 性 类 型 


相关 性 类 型 指令 对 示例 


LD R1, (sum) 一 条 指令 (如 
数据 相关 性 : 
ADD R3, R2, RI 


ADD R3, R2, RI 
反 相 相关 性 ons 

LD R2, (sum) 

ADD R3, R2, RI 
输出 相关 性 oe 

LD R3, (sum) 


M/s 
3 

5 9 

3 > 
> 

` 9 
3 


定 


多 


“LD”) 改变 (5) 一 个 寄存 器 (如 Rl) 中 的 内 容 ， 而 
另 一 指令 (如 “ADD”) 使 用 ( 读 ) 寄存 器 CRI) 中 的 内 容 来 执行 其 他 
计算 ， 在 同一 流水 线 周 期 内 执行 这 两 条 指令 将 导致 RAW 冒险 

一 条 指令 (如 “ADD”) 使 用 GE) 了 一 个 寄存 器 (如 R2 ) 中 的 内 容 ， 
一 条 后 来 执行 的 指令 (“LD”) 改变 了 (5) 该 寄存 器 的 内 容 。 在 同 
一 流水 线 周期 内 执行 这 两 条 指令 将 导致 WAR 冒险 


两 条 指令 (如 “ADD” 和 “LD”) 改变 了 ( 写 ) 同一 寄存 器 (R3) 的 
内 容 。 同 一 流水 线 周期 内 执行 这 两 条 指令 将 导致 WAW 冒险 


例如 ， 考 虑 例 8-13 中 在 一 个 超标 量 处 理 器 上 执行 的 程序 代码 ， 指 令 之 间 存 在 数据 相关 
性 、 反 相 相 关 性 和 输出 相关 性 。 指 令 并 行 执行 时 ， 将 导致 RAW、WAR 和 WAW 冒险 ， 如 
图 8-26 中 图 解 所 示 。 






程序 代码 示例 ， 假 定 寄 存 器 R1 和 R2 已 被 从 存储 器 中 读 取 的 内 容 初始 化 : 


ADD R3, 
MUL R4, 
ST (a), 
SUB R3, 


LD R5, 


NO WU PWD FB 


ADD R4, 
DIV R6, 


< 


5. LD R5, (b) 


——» RAW: 数据 相关 性 
< 一 > WAR: 反 相 相关 性 


> WAW: 输出 相关 性 


8-26 ”使 用 图 解说 明 例 8-13 中 指令 间 的 RAW、WAR 和 WAW 


//R3<R1 + R2; 
//R4<R3 * R3; 
//M[a] e R4; 

//R3<R2 一 R1; 
//R5<M[b] ; 

/ [R4 R3 + RS; 
//R6<R4 / R1; 


在 示例 程序 中 ， 存 在 5 个 RAW、2 个 WAW 和 1 个 WAR 洪 在 的 冒险 。 图 中 通过 箭头 


(一 ) 连接 的 一 对 指令 之 间 是 数据 相关 的 ， 其 不 能 并 行 


行 。 指 令 “ ADD R3, R1, R2” 和 


“SUB R3, R2, R1” 之 间 有 输出 相关 性 ， 因 为 这 两 条 指令 都 更 新 了 寄存 器 R3， 这 两 条 指令 
的 并 行 执行 将 导致 WAW 冒险 。 诸 如 此 类 ， 指 令 “ MUL R4, R3, R3” 和 指令 “ADD R4, R3, 


R5” 因 为 都 向 寄存 器 R4 中 写 人 数据 ， 若 这 两 条 指令 并 行 


行 ， 将 导致 WAW 冒险 。 指 令 


“ SUB R3, R2, R1” 和 “MUL R4, R3, R3” 有 反 相 相关 性 ，MUL 的 执行 是 基于 指令 “ ADD 
R3, R1, R2” 的 结果 ， 而 不 是 “SUB ”指令 的 结果 ， 如 果 “SUB ”指令 在 “MUL ”指令 之 
前 执行 ， 这 将 导致 一 个 WAR 冒险 。 

指令 采用 ILP 的 要 求 是 同一 流水 线 周期 调度 执行 的 指令 之 间 没 有 数据 相关 性 、 反 相 相 关 
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由 人 硬件 动态 选择 。 软 件 和 硬件 解决 方式 的 优点 和 缺点 将 在 后 面 讨论 。 

1. 静态 调度 的 ILP 

对 于 采用 病态 调度 的 ILP， 在 每 个 流水 线 周 期 中 ， 由 编译 需 决 定 而 不 是 由 人 硬件 来 决定 发 
射 哪些 指令 来 并 行 执行 。 一 个 超标 量 处 理 器 的 编译 央 必 须 检 测 一 组 指令 并 将 其 分 为 一 个 个 
集合 。 在 同一 集合 中 的 指令 之 间 必 须 没有 任何 会 造成 RAW 、WAR 或 WAW 的 相关 性 。 考 虑 
例 8-13 中 的 程序 代码 。 假 定 处 理 器 有 2- 发 射 超标 量 可 以 在 每 个 时 钟 周期 最 多 发 射 2 条 
指令 一 一 拥有 以 下 特性 : 

e 编译 器 必须 将 指令 组 织 成 最 多 2 段 的 ILP。 

e 如 采 需 要 ， 则 指令 流水 线 包含 足够 的 资源 (加 法 器 /减法 器 、 乘 法 器 、 除 法 器 ) 来 并 

行 执行 两 条 算术 指令 。 为 了 简单 起 见 ， 假 定 每 条 算术 计算 只 需要 1 个 时 钟 周期 。 

o 调度 “LD” 指 令 尽 早 执行 从 而 隐藏 从 DM 中 加 载 数据 所 需要 的 一 个 周期 的 延迟 。 

例 8-14 中 列 出 了 编译 器 对 示例 8-13 中 指令 采用 静态 调度 处 理 从 而 生成 的 2- 发射 指令 
组 织 结 构 。 表 8-8 说 明了 程序 代码 的 执行 ， 其 中 假定 变量 a 和 变量 b 已 经 加 载 到 cache 中 。 
在 每 个 流水 线 周期 中 ， 两 条 指令 并 行进 行 取 指 和 执行 操作 。 


表 8-8 使 用 5 级 超标 量 流水 线 执行 静态 调度 的 2- 发 射 的 程序 代码 


周 其 取 指令 译 码 据 存储 器 写 E 





a 


R2 5: LD RS, (d) 
R2 5: LD RS, (d) 
SUB R3, R2,R1  |R3 NOP R2 5: LD R5, (d) 
: 6: ADD R4, R3, 1: ADD R3, RI, 
SUB R3,R2,R1 [R3 NOP R2 5: LD RS, (d) 
7: DIV R6, R4, 2: MUL R4, R3,| 1: ADD R3, R1, 
R5 NOP SUB R3, R2,R1 [R3 NOP R2 5: LD R5, (d) 
3: ST (c), R4 4:| 2: MUL R4, R3, 
R1 NOP R5 NOP SUB R3, R2, R1 [R3 NOP 
ae 7: DIV R6, R4,| 6: ADD R4, R3,| 3: ST (c), R4 4: 
R1 NOP R5 NOP SUB R3, R2, RI 
| * 7: DIV R6, R4,| 6: ADD R4, R3, 
|RINOP R5 NOP 


R1 NOP 
对 例 8-13 中 指令 采用 静态 调度 使 之 可 执行 2- 发 射 ILP， 流 水 线 可 并 行 执行 


9 


Un 

5 rx an) 
— Un Le 
zZ Z 2 
O O O 
ar ry ro 


两 条 算术 指令 。 
ADD R3, R1, R2 LD R5, (b) 
MUL R4, R3, R3 NOP 
ST ta), R4 SUB R3, R2, R1 
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因为 一 个 超标 量 处 理 器 可 在 每 个 时 钟 周期 内 执行 多 条 指令 ， 所 以 程序 的 CPI 通常 小 于 
1。 因 为 这 个 原因 ， 流 水 线 首 选 的 性 能 参数 为 单位 周期 内 指令 数 (IPC), IPC 通过 对 CPI 求 
倒数 得 到 ， 如 公式 〈8-6 ) 所 示 。 
指令 执行 的 数量 (n) 
使 用 的 时 钟 周期 数量 CN) ae 
各 不 计 人 填充 流水 线 的 时 钟 周 期 数 ， 例 8-14 中 的 IPC 如 表 8-8 所 示 ， 计 算 如 下 : 
NMN=9-5S+1=5S$ 个 时 钟 周期 (忽略 填充 流水 线 的 开始 部 分 ) 
n= 二 7 条 执行 指令 ( 例 8-13 中 的 程序 ) (8-7) 


= e 
IPC = 5 1.4 


一 种 进一步 提升 IPC WY Be AR AY (ESE Ta Eas A BELT. FERRER, oP SF [ey th 
YASS Ft RAHIT AT. TERE RABAT PF, KHE T Se PEGE AY BE LEAT 7K, ORF 
一 个 “if-else ”指令 语句 转换 为 一 个 称 为 已 预测 的 指令 的 条 件 指 令 。 例 如 ， 考 虑 下 面 简单 的 
“if-else” AJ: 

if(a > 0) 

a=a-—1; 
else 
a2 a + 1; 


编译 器 将 转换 if-else 语句 为 下 列 的 汇编 代码 ， 其 中 编译 器 将 把 条 件 “a > 0” 附 给 所 有 
“then ”代码 部 分 的 指令 (在 这 个 示例 中 )， 而 把 条 件 “! (a > 0)” 附 给 所 有 的 “else” 代 码 部 
分 ， 如 下 所 示 。 这 将 消除 其 他 与 “then” 或 “else” 代 码 部 分 相关 的 分 支 指令 。 


LD Ri, (a) 

CMP Ri; 0 

SUB R1, R1, 1 (GTF = 1) //if greater than flag (GTF) is set 
ADD R1, R1, 1 (GTF = 0) //if GTF is not set 

ST (a), Rl 


“SUB” 指 令 和 “ADD ”指令 都 可 以 通过 调度 并 行 执行 。 处 理 器 将 计算 a-1 和 ar+1。 
然而 ， 这 些 结果 只 会 有 一 个 写 人 寄存 器 R1 中 ， 具 体 为 哪 一 个 由 GTF 标志 寄存 器 的 值 来 确 
定 。 如 果 “a > 0”，R1 将 采用 a=- 1 的 结果 ,否则 ，R1 将 采用 a+ 1 的 结果 。 因 为 某 个 计算 
结果 可 能 无 法 使 用 ， 所 以 这 种 计算 (a--1 或 a+1) 是 随机 的 。 

采用 静态 调度 的 ILP 的 一 大 优势 是 其 处 理 器 能 耗 更 高 ， 因 为 其 在 每 个 时 钟 周 期 中 不 使 用 
硬件 来 决定 对 某 个 指令 集 并 行 执行 。 因 为 这 个 原因 ， 在 手持 设备 (如 智能 手机 ) 中 常 使 用 采 
用 静态 调度 的 ILP 处 理 器 (如 ARM Cortex-A8 )。 与 采用 动态 调度 的 ILP 处 理 器 (下 面 讨论 ) 
相 比 ， 采 用 静态 调度 的 ILP 处 理 器 的 另 一 优势 是 编译 器 可 以 为 ILP 检查 更 长 的 指令 列表 ， 而 
在 动态 调度 的 ILP 中 ， 在 每 个 时 钟 周期 内 必须 动态 且 快 速 地 检测 指令 列表 。 

2. 动态 调度 的 ILP 

相对 于 采用 静态 调度 的 ILP， 在 超标 量 处 理 机 中 采用 动态 调度 的 ILP 的 流水 线 复杂 度 更 
高 、 功 率 更 高 。 在 流水 线 取 指令 阶段 含有 一 个 存储 尚未 进行 调度 处 理 指令 的 队列 。 使 用 专用 
硬件 动态 检测 队列 中 的 多 条 指令 ， 并 决定 哪些 指令 可 并 行 执行 。 与 采用 静态 调度 的 ILP 的 流 
水 线 相 比 ， 采 用 动态 调度 的 ILP 的 流水 线 具 有 以 下 优势 : 

e 确定 的 程序 流 只 会 在 运行 时 才能 知道 。 因 此 ， 对 于 处 理 器 而 言 ， 有 更 多 的 机 会 来 选 

择 和 发 射 多 条 指令 并 行 执行 。 
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e 处 理 器 也 可 以 实现 寄存 器 重 命 名 机 制 ， 其 使 用 程序 员 不 可 见 的 临时 寄存 器 代替 指令 
中 某 些 寄存 器 的 名 字 ， 从 而 动态 地 消除 程序 中 指令 间 的 反 相 相关 性 和 输出 相关 性 。 
这 允许 处 理 器 调整 指令 顺序 来 实现 更 高 的 指令 级 并 行 。 

o 当 执 行程 序 的 处 理 器 更 新 为 下 一 代 采 用 动态 调度 的 ILP 的 处 理 右 或 其 动态 调度 实现 

方式 有 所 不 同时 ， 程 序 并 不 需要 重新 编译 来 获取 采用 动态 调度 的 优势 。 

例如 ，Intel BEA i7 处 理 器 的 流水 线 采 用 了 动态 调度 的 ILP 技术 。 其 较 高 的 指令 吞吐 量 
使 得 其 适用 于 高 端 台 式 机 或 服务 器 。 

动态 指令 调度 要 求 流 水 线 采 用 诸如 计 分 牌 或 更 高 级 版 本 的 被 称 为 Tomasulo's 算法 等 
特定 的 技术 ， 这 些 技术 也 支持 随机 执行 。 流 水 线 可 动态 地 给 寄存 器重 命名 从 而 避免 WAR 和 
WAW 冒险 ， 并 允许 改变 指令 执行 顺序 。 例 如 ， 考 虑 在 之 前 例 8-13 中 讨论 的 包含 潜在 的 5 个 
RAW、2 个 WAW 和 1 个 WAR 冒险 的 程序 代码 (图 8-26 )。 

图 8-27 说 明了 如 何 通过 重 命名 技术 来 消除 程序 中 的 两 个 反 相 相关 性 和 一 个 输出 相关 性 。 
通过 使 用 临时 寄存 副 Tl EmA “ADD” FES PMA Aas R3， 消 除了 指令 “ ADD R3, 
R1, R2” 和 指令 “ SUB R3, R1, R1” 之 间 的 输出 相关 性 。 这 是 因为 ， 在 程序 执行 中 ， 使 用 
“ADD” 指 令 执行 结果 的 指令 “MUL R4, R3, R3” 位 于 需要 “SUB ”指令 执行 结果 的 指令 
“ADD R4, R3, R5” 之 前 。“MUL ”指令 中 的 R3 同样 使 用 T1 重 命名 。 这 样 修改 同时 也 消除 
了 “MUL” 和 “SUB” 指 令 之 间 的 反 相 相关 性 。 

与 之 类 似 ， 通 过 使 用 临时 寄存 器 T2 重 命名 “MUL ”指令 中 的 R4 寄存 器 ， 从 而 消除 在 
“MUL ”和 “SUB ”指令 之 间 的 输出 相关 性 。 指 令 “ST (a), R4” 的 R4 同样 使 用 T2 重 命名 。 
这 样 指令 “ ADD R4, R3, R5” 中 的 R4 没有 改变 ， 当 程序 每 次 执行 一 条 指令 时 ， 这 条 指令 的 
执行 结果 ， 将 像 它 应 该 的 那样 ， 存 人 R4 寄存 器 中 。 


ADD R3, R1, R2 
4. SUB R3, R2, R1 






1. ADD T1, R1, R2 


5. LD R5, (b) 





RAW: R5 


一 RAW: 数据 相关 性 





ST (a), R4 


图 8-27 ”使 用 重 命名 技术 消除 图 8-26 中 WAR 和 WAW 相关 性 


表 8-9 程序 代码 采用 2- 发 射 动态 调度 的 执行 过 程 


1: ADD T1, R1, R2 


5: LD RS, (b) 
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( 续 ) 
周 其 数据 存储 器 写 E 


ne | 
6: ADD R4, R3, R5 | 4: SUB R3, R2, R1 | 5: LD R5, (b) 
! 
Nop 6: ADD R4, R3, R5 | 4: SUB R3, R2, R1 | 5: LD RS, (b) 
Nop 6: ADD R4, R3, R5 | 4: SUB R3, R2, R1 | 5: LD RS, (b) 
7: DIV R6, R4, R1 | 3: ST(a), T2 2: MUL T2, T1, T1 
Nop 6: ADD R4, R3, R5 | 4: SUB R3, R2, R1 
Nop 6: ADD R4, R3, R5 


6 


7: DIV R6, R4, RI 
Nop 


K 8-9 说 明了 在 一 个 采用 2- 发 射 动态 调度 的 超标 量 处 理 器 上 使 用 图 8-27 中 修改 后 的 指 
令 的 程序 执行 过 程 。 对 程序 也 有 下 列 要 求 ， 这 与 在 采用 2- 发 射 静态 调度 的 超标 量 处 理 占 上 
的 要 求 相 同 。 

e 如 果 需 要 ， 则 指令 流水 线 包 含 足 够 的 资源 (加 法 器 /减法 器 、 乘 法 器 、 除 法 堪 ) 来 并 

行 执行 两 条 算术 指令 。 为 了 简单 起 见 ， 假 定 每 条 算术 计算 只 需要 1 个 时 钟 周期 。 

o 调度 “LD” 指 令 尽 早 执行 从 而 隐藏 从 cache 中 加 载 数据 所 需要 的 一 个 周期 的 延迟 。 

在 第 一 个 流水 线 周 期 中 ，3 条 独立 的 指令 “ADD T1, R1, R2”, “SUB R3, R2, R1” Al 
“LD RS, (b)”， 如 图 8-27 所 示 ， 至 少 有 2 条 必须 发 射 执行 。 因 为 “ADD” 指 令 在 “SUB 
指令 之 前 ， 故 而 “ADD ”指令 被 选中 。“LD ”指令 被 选中 ， 从 而 可 以 更 早 地 加 载 其 中 的 数 
据 ， 从 而 隐藏 “LD” 指 令 在 指令 “ADD R4, R3, R5” 之 前 执行 的 必要 的 一 个 时 钟 周 期 的 
延迟 。 

在 第 2 和 第 3 个 周期 ， 调 度 部 件 将 发 射 两 个 独立 的 指令 “MUL T2, T1, T1” 和 “SUB 
R3, R2, R1”， 之 后 再 发 射 男 两 条 独立 的 指令 “ST (a), T2” Al “ ADD R4, R3, R5”。 最 后 ， 
在 第 4 个 周期 发 射 指 令 “ DIV R6, R4, R1”。 正 常情 况 下 ， 当 前 指令 调度 发 射 后 ， 新 的 指令 
将 取 值 并 存储 到 这 一 指令 队列 中 。 然 而 ， 为 了 使 配 图 简单 化 ， 这 样 的 步骤 在 此 处 省 略 。 

假定 忽略 最 初 的 填充 流水 线 所 需 的 时 钟 周 期 ， 程 序 代 码 的 IPC 由 公式 〈8-8 ) 决定 ， 为 
1.75。 在 这 个 程序 示例 中 ， 使 用 动态 调度 的 2- 发 射 超标 量 处 理 器 比 同等 的 采用 静态 调度 的 
超标 量 处 理 器 快 25% (1.75/1.4 = 1.25). 


po- RS 


72-5 +1)AK BF 
(8-5+1) 4 (8-8) 





然而 ， 因 为 一 个 典型 的 RISC 处 理 器 有 许多 (例如 ，32 个 ) 寄存 器 ， 为 避免 使 用 最 近 使 
用 的 寄存 器 ， 编 译 器 可 以 给 指令 分 配 不 同 的 寄存 器 ， 从 而 减少 指令 之 间 的 一 些 反 相 相关 性 和 
输出 相关 性 ， 从 而 实现 更 好 的 静态 调度 的 ILP。 

采用 动态 调度 时 也 可 能 采用 随机 执行 。 在 这 种 情况 下 ， 一 旦 指令 的 操作 数 可 用 ， 并 且 
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与 分 支 决 定 无 关 ， 处 理 器 将 执行 指令 。 如 果 程 序 流 发 生 改变 ， 一 些 随 机 的 计算 结果 可 能 会 补 
丢弃 ， 当 每 个 时 钟 执行 一 条 指令 时 ， 需 要 提交 给 寄存 器 或 存储 器 的 计算 结果 必须 按 程 序 顺 序 
完成 。 


8.4.4 多 线程 


正如 我 们 在 第 1 章 和 本 章 中 早先 提 到 的 那样 , ILP 存在 一 个 限制 。 对 于 一 个 给 定 的 程序 ， 
即使 采用 寄存 器 重 命名 技术 ， 使 具有 相关 性 的 指令 可 在 每 个 流水 线 周 期 中 同时 执行 ， 程 序 中 
独立 的 指令 依然 很 少 。 一 些 基准 测试 程序 的 研究 显示 ， 约 30% 的 时 间 3 条 指令 可 并 行 执行 ， 
约 2% 的 时 间 6 条 或 多 条 指令 可 并 行 执 行 ， 平均 每 个 时 钟 周期 可 并 行 执行 2.5 条 指令 [11]。 
即使 不 限制 可 用 晶体 管 的 数量 和 设备 最 大 功 耗 ， 一 个 程序 执行 的 时 间 也 有 限制 。 因 此 ， 更 快 
执行 一 个 任务 的 唯一 方式 是 分 割 这 个 任务 为 多 个 可 同时 执行 的 子 任务 。 

1. 程序 示例 

考虑 下 面 给 出 的 C 语言 程序 ， 其 中 有 一 个 一 千 万 次 迭代 的 for 循环 。 为 了 简单 起 见 ， 数 
组 的 元 素 全 部 初始 化 为 1.0。 


main () 


{ 
double array[10000000] = {[0 ... 9999999] = 1.0}; 
double sum; 
int i; 
sum = 0.0; 
for(i = 0; i < 100000000; i++) 
sum = sum + array [i]; 
printf (“sum = %e\n”, sum); 


} 


降低 计算 数组 中 各 元 素 之 和 所 需要 的 时 间 的 一 种 方法 是 将 数组 分 割 为 2 等 份 ， 使 用 两 个 
不 同 的 线程 分 别 计算 每 个 等 份 中 各 个 元 素 之 和 。 例 如 ， 下 面 使 用 C 语言 编写 的 双 线 程 程序 
可 用 来 计算 数组 中 各 个 元 素 之 和 。 程 序 中 ,“ main ”函数 首先 创建 一 个 线程 (线程 0 ) 来 求 
数组 中 前 半 部 分 各 元 素 之 和 ， 之 后 “main ” 郴 数 本 身 ， 作 为 线程 1， 计 算数 组 中 剩余 部 分 各 
元 素 之 和 。 —H “main” KA (现在 为 线程 1 ) 完成 后 半 部 分 元 素 求 和 ， 将 检查 确定 线程 0 
是 否 完成 前 半 部 分 元 素 求 和 工作 。 知 线程 0 SEM, “main” PBC IFT A RB CR 
和 。 注 意 ， 两 个 线程 都 可 以 访问 声明 为 全 局 变量 的 “array” 和 “sum”。 

/*compile as “gcc -pthread filename.c” */ 


#include <pthread.h> 
#include <stdio.h> 


//globally declared array and sum 
double array[10000000] = {[0 ... 9999999] = 1.0}; 
double sum[2]; //to store two partial sums 


typedef struct { 
int start; 
int end; 
int pid; 

} range; 


void *calculate_array_sum(void *arg) 
range *incoming = (range *) arg; 
int i; 


TERA A EH 


double partial_sum; 
int start, end, pid; 


start = incoming->start; 
end = incoming->end; 
pid = incoming -> pid; 


partial_sum = 0; 
for(i = start;.i < end; 
partial sum = 


i++) 


sum[(pid] = partial sum; 


return; 


} 


main () 
{ 


pthread 七 threadID; 
void *exit_status; 
range range_thread0; 
range range _thread1; 
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partial sum + array [i]; 


//define the array range for Thread 0 


range _thread0O.start = 0; 
range thread0 .end 5000000; 
range thread0 .pid 


0; //Thread 0 


//now create a thread to sum the first half of the array elements 


pthread create(&threadID, 
&range thread0) ; 


NULL, calculate array _sum, 


//define the array range for the main as Thread 1 


range threadl.start = 
range _threadl.end = 10000000; 
range threadl.pid = 1; 


5000000; 


//Thread 1 


calculate array_sum(&range_ thread1) ; 


pthread_join(threadID, &exit_status); //wait for Thread 0 


printf (“Grand total = 


} 


%e\n”, sum[0] + sum[1]); 


上 面 C 语言 程序 的 执行 将 产生 两 部 分 代码 ， 如 下 所 示 ， 当 CPU 采用 多 线程 时 ， 两 部 分 


代码 可 并 行 执 行 。 
线程 0 
for(i = 0; i «< 50000000; 


i++) 

partial sum = 
sum + array [i]; 
sum[0] = partial sum; 


partial _ 


“main” (FARE 1 

for(i = 50000000; i < 

100000000; i++) 
partial sum = 

sum + array [i]; 

sum[{1] = partial_sum; 


partial _ 


指令 流水 线 必须 包含 所 有 寄存 器 (包括 PP) 的 两 份 副本 。 下 面 章节 将 描述 3 Ph k- 发射 


多 线程 的 流水 线 组 织 结 构 。 
2. 粗 粒度 


每 次 执行 LD 指令 或 ST 指令 ， 都 将 造成 一 个 长 等 待 ， 例 如 当 需 要 访问 主 存 时 ， 流 水 线 
将 切换 并 唤醒 另 一 个 进程 ， 使 之 开始 执行 。 例 如 ， 当 执行 上 述 的 线程 0 和 线程 1 时 ， 流 水 线 
在 线程 0 中 连续 发 射 上 条 指令 ， 直 到 其 访 存 的 数据 不 在 cache 中 而 必须 从 主 存储 器 中 访问 得 
到 ， 这 将 有 一 段 很 长 的 延迟 。 此 时 ， 当 线程 0 从 主 存 中 访问 数据 ， 流 水 线 将 切换 到 线程 1 并 
连续 发 射 上 条 指令 ， 直 到 线程 1 遇 到 一 个 长 延迟 时 ， 流 水 线 再 切换 回 线程 0 并 发 射 上 条 指令 。 
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这 被 称 为 一 个 粗 粒 度 的 多 线程 体系 结构 ， 因 为 流水 线 在 一 个 时 间 内 执行 一 个 线程 ， 直 到 


B62| 它 遇 到 一 个 很 长 的 延迟 时 才 进 行 切换 。 因 为 每 个 线程 使 用 其 私有 的 寄存 器 集 ， 被 切换 的 线程 


将 自动 保存 其 状态 。 这 种 方式 在 延 玉 很 长 的 情况 下 效果 很 好 ， 但 当 延 迟 较 短 时 ， 效 果 并 不 显 
著 ， 例 如 ， 当 从 一 个 低 等 级 的 cache 中 访问 数据 时 ， 若 访问 延迟 要 比 上 述 小 很 多 时 ， 其 效果 
将 比较 差 。 这 是 因为 每 次 切换 线程 时 ， 流 水 线 必 须 被 清空 ， 这 将 浪费 一 定 的 流水 线 周期 。 此 
外 ， 在 某 些 应 用 程序 中 ， 线 程 切换 发 生 的 频率 可 能 比 必需 的 还 少 。 例 如 ， 在 一 些 实时 应 用 中 
需要 线程 更 快 执行 。 

流水 线 组 织 结构 与 多 线程 结构 相 比 ， 有 一 大 优点 ， 即 其 所 需要 的 硬件 数量 要 比 多 线程 
少 ， 这 是 因为 流水 线 中 的 资源 在 任 一 时 间 都 只 用 于 一 个 线程 的 执行 。 男 一 个 优点 是 ， 它 可 以 
用 于 实现 一 个 采用 静态 或 动态 ILP 的 多 线程 处 理 器 。 注 意 ， 总 体 而 言 ， 线 程 可 以 属于 也 可 以 
不 属于 同一 程序 。 两 个 不 同 程序 的 线程 也 可 以 同时 执行 。 

3. 细 粒 度 

在 这 种 情况 下 ， 线 程 每 个 时 钟 周 期 都 进行 切换 。 例 如 ， 当 执行 上 述 的 线程 0 和 线程 1 
时 ， 流 水 线 在 第 1 个 流水 线 周 期 在 线程 0 中 最 多 发 射 上 条 指令 ， 之 后 流水 线 将 进行 切换 ， 在 
第 2 个 流水 线 周 期 在 线程 1 中 最 多 发 射 上 条 指令 ， 依 次 重复 进行 。 同 样 ， 一 般 情况 下 ， 线程 
可 以 属于 也 可 以 不 属于 同一 个 程序 。 

这 被 称 为 细 粒 度 的 多 线程 体系 结构 ， 因 为 流水 线 在 每 一 个 周期 都 进行 了 线程 切换 。 与 粗 
粒度 的 多 线程 流水 线 相 比 ， 该 流水 线 效 率 更 高 ， 但 是 每 个 线程 的 执行 速度 仍然 很 慢 。 当 流水 
线 在 每 一 个 周期 中 只 执行 一 个 线程 的 指令 时 ， 其 他 线程 必须 等 待 。 例 如 ， 在 Sun WY Niagara 
处 理 器 和 Nvidia GPU 上 ， 实 现 这 种 类 型 的 多 线程 。 

因为 线程 在 每 个 时 钟 周期 进行 交换 ， 与 粗 粒度 多 线程 结构 相 比 ， 细 粒度 多 线程 结构 提供 
了 一 个 更 高 的 线程 级 并 发 。 与 之 类 似 ， 这 一 结构 也 可 以 用 于 实现 一 个 采用 静态 或 动态 ILP 的 
多 线程 处 理 需 。 

4. 同步 

在 这 种 情况 下 ， 流水线 在 每 个 时 钟 周 期 从 所 有 运行 的 线程 中 最 多 选取 上 条 指令 进行 发 
射 。 例 如 ， 当 执行 上 述 的 线程 0 和 线程 1 时 ， 流 水 线 在 每 个 时 钟 周期 从 线程 0 中 发 射 KO 
(0<kO<k) 条 指令 ， 从 线程 1 中 发 射 上 1 (0 < klisk) 条 指令 ,其 中 (0 < KO +k1l <k). 
因为 流水 线 从 多 个 线程 中 选择 独立 不 相关 的 指令 ， 并 同步 执行 ， 这 种 结构 也 被 叫 作 同步 多 线 
程 。 这 种 结构 的 流水 线 必 须 实 行动 态 调度 的 ILP， 因 此 ， 同 步 多 线程 的 实现 要 求 最 多 数量 的 
硬件 资源 。 相 比 对 于 之 前 的 多 线程 结构 ， 在 线程 级 并 行 (TLP) 方面 ， 同 步 多 线程 结构 的 优 
势 在 于 可 同时 执行 来 自 多 个 线程 的 多 条 指令 。 

例 8-15 考虑 下 面 两 种 程序 代码 的 执行 ， 标 记 为 线程 A 和 线程 B， 其 在 采用 了 同步 多 
线程 、 动 态 调度 ILP 的 4- 发 射 超标 量 处 理 器 上 执行 。 线 程 A 执行 例 8-13 的 程序 代码 ， 其 指 
令 间 包含 数据 相关 性 、 反 相 相 关 性 以 及 输出 相关 性 。 为 了 简单 起 见 ， 线 程 B 中 的 指令 之 间 


只 包含 数据 相关 性 。 

线程 A (B 8-13 中 的 程序 代码 ) 线程 B 

ADD R3, R1, R2 ST (gj, K3 

MUL R4, R3, R3 ADD R4, R1, R2 
ST (a), R4 MUL R6, R4, R5 
SUB R3, R2, RÍ DIV R7, R3, R6 
LD R5, (b) ST (2), R7 

ADD R4, R3, R5 LD R8, (y) 


DIV R6; R4, R1 SUB R9, R7; R8 
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假设 以 下 : 

e 如 果 需 要 ， 执 行 阶 段 有 足够 的 资源 (例如 ， 加 法 器 /减法 器 、 乘 法 器 、 除 法 器 )， 可 并 
行 执行 任何 4 个 算术 指令 。 为 简单 起 见 ， 也 假定 每 个 算术 运算 都 需要 一 个 时 钟 周 期 。 

èe DM (cache) 组 织 结构 采用 2- 路 交叉 存储 (第 7 章 )， 流水线 采用 可 同步 执行 LD 和 
ST 指令 的 设计 。 假 定 在 一 个 采用 交叉 存储 的 存储 器 中 同步 执行 一 个 ST 指令 和 一 个 
LD 指令 比 同步 执行 两 个 ST 指令 和 两 个 LD 指令 遇 到 冲突 的 可 能 性 小 。 

© 流水 线 将 尽 可 能 早 地 发 射 LD 指令 从 而 隐藏 LD 指令 从 cache 中 加 载 数据 所 必需 的 一 
个 周期 的 延迟 。 

e 变量 a、b 和 x ~ z 存储 在 cache 中 ,没有 冲突 。 

K 8-10 说 明了 例 8-15 中 线程 A 和 线程 B 的 执行 过 程 。 在 流水 线 周 期 1 中 ,流水线 从 
线程 A 中 发 射 两 条 指令 “ADD T1,R1, R2” 和 “LD R5, (b)”， 从 线程 B 中 发 射 男 两 条 指令 
“ ST (x), R3” Al “ADD R4, R1, R2”。 在 流水 线 周 期 2 中 ,流水线 继续 从 线程 A 中 发 射 两 
条 指令 ， 从 线程 B 中 发 射 男 两 条 指令 。 在 流水 线 周期 3 中 ,流水线 从 线程 A 发 射 两 条 指令 ， 
从 流水 线 BAH 1 条 指令 。 最 后 ， 在 流水 线 周期 4 中， 流水 线 最 后 发 射 两 条 指令 ， 各 从 每 
个 线程 中 发 射 一 条 指令 。 每 个 周期 中 发 射 的 指令 是 数据 不 相关 的 ， 可 并 行 执行 。 因 为 流水 线 
在 每 个 周期 只 能 发 射 一 条 LD 指令 和 一 条 ST 指令 ， 指 令 “LD R8, (y) ”不 能 在 周期 1 中 更 
早 发 射 。 因 此 ， 指 令 “SUB R9, R6, R8” 的 执行 延迟 到 第 6 个 周期 执行 。 


R 8-10 使 用 双 线 程 在 采用 同步 多 线程 、 动 态 调度 的 ILP 的 4- 发 射 超标 量 处 理 
器 上 程序 代码 的 执行 过 程 


周 期 数据 存储 器 MESE 


A: ADD Tl, R1, R2 
: A: LD RS, (b) 

B: ST (x), R3 

B: ADD R4, R1, R2 


A: MUL T2, T1, T1 | A: ADD T1, R1, R2 
A: SUB R3, R2, R1 | A: LD R5, (b) 

: MUL R6, R4, R5 | B: ST (x), R3 

: LD R8, (y) B: ADD R4, R1, R2 
A: ST (a), T2 A: MUL T2, T1, T1 
A: ADD R4, R3, R5 | A: SUB R3, R2, R1 
B: DIV R7, R3, R6 | B: MUL R6, R4, R5 
: SUB R9, R6, R8 | B: LD R8, (y) 
A: DIV R6, R4,R1 | A: ST (a), T2 
: ST (z), R6 A: ADD R4, R3, R5 
B: DIV R7, R3, R6 
: SUB R9, R6, R8 
A: DIV R6, R4, R1 
: ST (z), R6 































A: ADD T1, R1, R2 
A: LD RS, (b) 

B: ST (x), R3 

B: ADD R4, R1, R2 
A: MUL T2, T1, T1 
A: SUB R3, R2, RI 
B: MUL R6, R4, R5 
B: LD R8, (y) 
A: ST (a), T2 

A: ADD R4, R3, R5 
B: DIV R7, R3, R6 

O 
A: DIV R6, R4, RI 
B: ST (z), R6 

B: SUB R9, R6, R8 
9 












A: ADD T1, R1, R2 
A: LD R5, (b) 

B: ST (x), R3 

B: ADD R4, R1, R2 
A: MUL T2, T1, T1 
A: SUB R3, R2, RI 
B: MUL R6, R4, R5 
B: LD R8, (y) 
A: ST (a), T2 
A: ADD R4, R3, R5 
B: DIV R7, R3, R6 
O 




























A: ADD T1, R1, R2 
A: LD RS, (b) 
B: ST (x), R3 
B: ADD R4, R1, R2 
At MUL Tz, Ti, TI 
A: SUB R3, R2, RI 
B: MUL R6, R4, R5 
B: LD R8, (y) 


5% 












ON 






365 


288 HEF 


( 续 ) 







周 期 数据 存储 器 


A: DIV R6, R4, R1 
B: ST (z), R6 
B: SUB R9, R6, R8 












: ST (a), T2 
: ADD R4, R3, R5 
: DIV R7, R3, R6 





: DIV R6, R4, RI 
: ST (z), R6 
: SUB R9, R6, R8 











% 由 于 “LD R8, (y)”, “SUB R9, R6, R8” 3ER 1 个 时 钟 周 期 。 
A: 线程 A 指令 。 
B: 线程 B 指令 。 


基于 4- 发 射 的 ILP 如 表 8-10 所 示 ， 对 线程 A 或 线程 B 的 IPC 均 为 1.75 (7/4), HPA 





略 填 充 流 水 线 所 需要 的 时 钟 周期 。 然 而 ， 采 用 同步 多 线程 的 线程 A 和 线程 B 的 IPC 一 一 同 
样 也 忽略 填充 流水 线 所 需要 的 时 钟 周 期 一 一 为 3.5， 计 算 方 式 见 公 式 ( 8-9 )。 
rc =— +t) 条 指令 
(8 一 5 十 1) 个 周期 (8-9) 
_ 14 条 指令 =| 75 
4 个 周期 


多 线程 ， 尤 其 是 同步 多 线程 结构 ， 提 升 了 流水 线 的 效率 。 此 外 ， 同 步 多 线程 流水 线 实现 小 
规模 的 TLP。 更 高 级 的 TLP 要 求 采 用 多 核 处 理 需 或 多 处 理 怖 系统 ， 这 将 在 第 10 章 中 进行 讨论 。 
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练习 
8.1 思考 一 个 采用 累加 器 ISA 的 CPU 执行 下 列 的 伪 代 码 ， 完 成 以 下 任务 : 


.. //some code 
while{ (true) //loop forever 


{ 


T =(-5 - A + B) ^ C; //where ^ stands for bit-wise XOR 
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8.2 


8.3 


8.4 


8.5 


.. //some other code (not given) 


} 

a. 设计 一 个 指令 长 为 8 位 的 累加 器 ISA 指令 集 ， 其 中 操作 码 3 位 ， 操 作 数 5 位 。A ~ C 中 的 任 一 
变量 可 能 为 负 的 2 的 补 码 。 

b. 使 用 刚 设计 的 指令 集 编 写 汇 编程 序 ， 假 定 代 码 从 存储 器 地 址 0 开始 ， 每 次 递增 1， 数 据 从 存储 
器 地 址 0x1F 开始 ， 每 次 递减 1。 

c. 手动 汇编 你 的 汇编 程序 ， 使 用 二 进 制 和 十 六 进 制 编写 你 的 程序 。 从 地 址 0 开始 顺序 分 配 操 作 码 
给 相应 的 汇编 程序 指令 。 

d. 绘制 CPU 数据 通路 图 ， 只 需 画 出 数据 通路 ， 其 他 部 件 可 省 略 。 

思考 累加 器 ISA 的 汇编 指令 “LD data” (ACC + data), “LD (adrs)” (ACC + Memory[adrs]), “ST (adrs)” 

(Memory[adrs] — ACC), “ ADD (adrs)” (ACC < ACC + Memory[adrs]), “ XOR (adrs)” (ACC +— ACC 

® M[adrs]). TERA FEF : 

a. 为 下 面 程序 编写 汇编 程序 : 


A = -2i 
Y = 6; 
Z z= ili; 


T2z2i+Y¥e- j; 
b. 针对 上 述 汇编 指令 ， 绘 制 单 周 期 指令 数据 通路 。 
累加 器 ISA CPU 执行 下 列 指令 ， 使 用 3 位 的 操作 码 和 5 位 的 地 址 或 2 的 补 码 数 。 完 成 以 下 任务 : 


LD (address) //Acc e Memory [address], read from LM2 

LD data //Acc«data (a 2's complement number, sign 
//extended) 

ADD data //Acc«Acc + data (data is a 2's complement 


//number, sign extended) 


SUB data //Acc<«Acc - data (data is a 2’s complement 
//number, sign extended) 


ADD (address) //Acc«Acc + Memory [address] 
SUB (address) //Acc«Acc - Memory [address] 


ST (address) //M [address] «Acc 

JMP address / [PP «e address 

JZ address //PP«address if ACC = 0 

a. 绘制 CPU 的 数据 通路 ， 假 定 DM 有 独立 分 开 的 输入 和 输出 总 线 ， 如 图 8-7 所 示 ， 不 用 包含 未 
被 上 述 指令 使 用 的 数据 通路 。 


b. 绘制 CPU 的 数据 通路 ， 假 定 DM 有 一 个 双向 数据 总 线 。 不 用 包含 未 被 上 述 指令 使 用 的 数据 通路 。 
对 下 列 显示 的 更 高 难度 的 代码 段 ， 创 建 一 组 指令 ， 分别 为 下 列 体系 结构 编写 一 个 等 价 的 汇编 程序 : 


int i, sum; 
for (i=0; i> k, i++) 
if (i mod 2 == 0) 
sum = sum +i; 


a. Stack-ISA 

b. Acc-ISA 

c. CISC-ISA 

d. RISC-ISA 

使 用 寄存 器 设计 一 个 简单 的 8 位 宽 、 深 度 为 16 的 硬件 堆栈 。 其 包含 4 个 信号 线 ， 为 push、pop、 
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ovf ( 栈 顶 溢出 ) 和 udf ( 栈 底 溢出 )。 假 定 信 号 高 电 平 有 效 。 当 栈 为 空 时 ， 进 行 push 操作 ，ovf 将 
变 为 1 (选中 )， 当 栈 为 空 时 ， 进 行 pop 操作 ，udf 将 为 1。 

8.6 讨论 可 变 的 CISC 指令 的 格式 与 固定 的 RISC 指令 格式 是 如 何 使 得 指令 数据 通路 的 设计 变 得 复杂 。 

8.7 给 定 图 8-7 中 的 单 周 期 CPU 数据 通路 ， 请 估计 时 钟 频率 的 最 大 值 。 假 定 Am 和 A pw 均 为 1.2ns， 
A wa AY 0.8ns, A sdacmp 为 0.9ns，A mux 为 0.3ns，A nanD 为 0.1ns，rt、trcq、res 均 为 0.05ns。 

8.8 给 定 图 8-11 中 的 流水 线 数据 通路 ， 请 估计 时 钟 频率 的 最 大 值 ， 假 定 Ai 和 Apw 4A 1.2ns, A aaa 
为 0.8ns，Aaadcmp Y0.9ns, Arimux 为 0.3ns，ANANp A O.1NS, tet. Tegs Tes 均 为 0.05ns。 

8.9 思考 包含 取 指令 (F)、 译 码 (D)、 执 行 (E) ASE CWB) 4 个 阶段 的 流水 线 ， 其 中 AE 为 其 他 阶 
段 的 两 倍 。 当 流水 线 执行 n 条 指令 时 完成 以 下 内 容 : 
a. 假设 E 阶段 可 被 分 为 两 个 阶段 El 和 E2， 其 中 Arns Amn = 1/2Ae。 假定 CPI 为 1，n 趋 近 于 无 


穷 时 ， 根据 Ar 和 Casa 确定 加 速 比 的 表达 式 。 此 外 ， 请 估算 当 n AFAJ H. A g= 2ns 和 
A clocking = 0.1ns 时 的 加 速 比 。 


b. 假设 EE 阶段 可 使 用 该 阶段 的 2 个 硬件 和 MUX 的 副本 进行 超标 量 。 假 定 CPI 为 1, ” 趋 近 于 无 


8.10 
8.11 


8.12 


8.13 


8.14 


穷 时 ， 根 据 Ag. A clocking 和 A mux 确定 加 速 比 的 表达 式 。 此 外 ， 请 估算 当 AE= 2ns, A cocking = 
0.1ns、A mux = 0.3ns 情况 下 , 趋 近 于 无 穷 时 的 加 速 比 。 

讨论 交换 图 8-17 中 E 阶段 和 DM 阶段 位 置 的 效果 。 

根据 给 定 的 例 8-10 中 的 汇编 代码 ， 完 成 以 下 工作 : 

a. 根据 图 8-17 中 的 5 级 流水 线 绘 制 2 次 for 循环 迭代 的 流水 线 图 ， 不 用 包含 for 循环 之 后 的 指 
令 (如 Ix、Iy、Iz) 的 执行 。 

b. 计算 两 次 迭代 时 程序 的 CPI 

c. 确定 求 k 次 迭代 时 CPI 的 计算 公式 。 

d. 确定 大 趋 问 于 无 穷 时 CPI 的 极限 值 。 

根据 给 定 的 例 8-11 中 的 汇编 代码 ， 完 成 以 下 工作 : 

a. 根据 图 8-17 中 的 5 级 流水 线 绘制 2 次 for 循环 迭代 的 流水 线 图 ， 不 用 包含 for 循环 之 后 的 指 
令 (如 Ix、Iy、Iz) 的 执行 。 

b. 计算 两 次 迭代 时 程序 的 CPI. 

c. 确定 求 大 次 迭代 时 CPI 的 计算 公式 。 

d. 确定 上 趋向 于 无 穷 时 CPI 的 极限 值 。 

根据 表 8-6 中 的 流水 线 图 ， 确 定 迁 代 次 数 上 为 10 时 CPI 的 计算 公式 。 并 确定 当 丰 趋向 于 无 穷 时 

CPI 的 下 限 值 。 

考虑 下 列 包 含 一 个 单独 的 if-else 语句 的 for 循环 以 及 其 编译 器 生成 的 分 支 指令 。 假 定 处 理 器 采 

用 基于 分 支 相 关 性 的 预测 器 。 在 for 循环 执行 过 程 中 ， 当 i 为 偶数 (如 0、2、4 等 ) 时 ， 将 执行 

“then” 部 分 代码 ， 当 i 为 奇数 时 ,将 执行 “else” 部 分 代码 。 完 成 以 下 工作 : 


endfor 
else 


endif 
else: 


endif: 
endfor: ... 
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a. 假设 预测 器 采用 2 位 的 BHR。 填 写 下 列 进 行 6 次 迭代 的 表格 ， 并 确定 错误 预测 的 数量 ， 其 
中 “N”( 预 测 不 跳 转 )、“T”( 预 测 跳 转 )、“ LN "(预测 可 能 不 跳 转 )、“LT”( 预 测 可 能 跳 转 ) 是 
用 于 说 明 2 位 预测 器 的 状态 ， 每 一 个 状态 对 应 BHR (NN. NY, YN, YY) 的 一 条 执行 路 径 。 
在 表 中 ， 前 一 行 中 的 状态 被 用 来 预测 当前 指令 的 分 支 方 向 为 Y 或 N。 例如 ， 开 始 部 分 ， 当 执 
ÍT “JMP endif” 指 令 时 ,其 中 BHR = NN (“BGT” 指 令 不 跳 转 ,“ BLE” 指 令 不 跳 转 )， 
H “JMP endif” 发 生 跳 转 ，BHR 为 NN AY 2 位 预测 被 初始 化 为 “T”。 当 BHR 下 一 次 为 NN 
时 ， 相 关 预 测 器 将 为 当前 指令 预测 “ 跳 转 ”。BHR = NY 如 表 中 所 示 。 


J 
J 


MP LI JGT LT 


b. 假定 预测 器 采用 3 位 的 BHR 来 确定 包括 NNN、NNT、NTN、NTT、TNN、TNT、TTN 和 
TTT 共 8 条 执行 路 径 中 的 一 条 。 然 而 ， 具 体 执行 哪 一 条 路 径 由 程序 执行 时 处 理 的 数据 决定 。 369 








“then” 


“else” 


NYY 


8.15 思考 下 面 的 程序 代码 ， 假 定 1) DM 采用 交叉 存储 方式 ， 任 何 两 条 存储 指令 可 同时 执行 ，2 ) 每 
条 算术 指令 需要 1 个 时 钟 周 期 来 执行 。 完 成 以 下 工作 : 


LD R1, (a) 
LD R2, (b) 
ADD R3, Rl, R2 
ST te), K3 
LD R4, (d) 
MUL R5, R3, R4 
ST (d), R5 


SUB RS; R2; R1 
DIV R6, R3, RS 
ST (e), R6 


a. 调整 指令 执行 顺序 ， 使 之 能 在 一 个 采用 静态 调度 的 2- 发 射 超标 量 处 理 器 上 执行 。 
b. 调整 指令 执行 顺序 ， 使 之 能 在 一 个 采用 动态 调度 的 2- 发 射 超标 量 处 理 器 上 执行 。 
8.16 思考 例 8-13 中 的 程序 代码 。 假 定 采 用 动态 调度 的 2- 发 射 (ILP) 超标 量 处 理 器 调度 算术 指令 而 
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不 是 “ LD” 指令 尽早 执行 。 使 用 一 个 流水 线 图 说 明 程 序 执 行 过 程 ， 并 计算 IPC。 当 计算 IPC 时 
忽略 填充 流水 线 所 需要 的 时 钟 周 期 。 
8.17 思考 一 个 4- 发 射 同步 多 线程 的 超标 量 处 理 器 。 并 思考 一 个 双 线 程 的 多 线程 程序 ， 其 中 每 个 线程 
执行 约 10 ”条 指令 。 完 成 以 下 工作 : 
a. 当 没 有 存储 器 访问 延 时 时 ， 假定 程序 的 IPC 为 3.5。 假 设 时 钟 频率 为 1GHz， 处 理 器 执行 这 个 
程序 需要 多 长 时 间 ? 忽略 因为 操作 系统 过 载 造成 的 延 时 。 
b. 假定 程序 中 LD 指令 和 ST 指令 占 20%。 这 些 指 令 中 10% 将 导致 数据 加 载 和 写 回 的 存储 器 延 
时 ， 使 得 IPC 降低 为 1.75。 请 确定 程序 执行 的 时 间 。 
计算 机 安全 
8.18 ”计算 机 安全 (安全 的 协 处 理 器 ): 练习 11.27 (也 可 参见 11.4 节 、11.8 WA 11.10 节 )。 
8.19 计算 机 安全 (安全 的 处 理 器 ) : 选择 练习 11.28 和 /或 练习 11.29 (也 可 参见 11.4 节 11.9.2 节 和 
Ls 
8.20 ”计算 机 安全 (欺骗 、 拼 接 和 重 放 攻击 ): 练习 11.30 (也 可 参见 11.3 节 和 11.11 节 )。 
8.21 计算 机 安全 (安全 处 理 器 性 能 相关 问题 ): 练习 11.31 (也 可 参见 11.11 节 )。 
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计算 机 体系 结构 : 互 连 


9.1 简介 


现代 计算 机 系统 是 由 一 个 或 多 个 处 理 器 、 存 储 器 单元 和 输入 /输出 C/O) 设备 构成 的 互 
连 系 统 。 个 人 计算 机 (如 微型 计算 机 ) 还 可 以 包括 一 个 可 选 的 专用 或 自 定义 处 理 器 用 作 加 速 
A (如 GPU、FPGA)。 键 盘 、 鼠 标 、 打 印 机 、 网 络 适配器 、 硬 盘 、flash 驱动 器 、 便 携 式 设 
备 驱动 器 〈 如 记忆 棒 )、CD 驱动 器 、 麦 殉 风 等 都 是 在 微型 计算 机 中 使 用 的 IO 设备 实例 。 
关于 CPU 和 存储 器 架构 的 创新 促成 了 指令 级 并 行 (ILP)、 多 线程 和 多 核 处 理 器 等 技术 ， 
在 集成 电路 (IC) 技术 上 的 创新 使 得 CPU 的 速度 从 1986 年 的 16.7MHz (Sun-4 Sparc) 提升 
到 2010 年 的 3.33GHz (Intel Nehalem Xeon)， 而 在 计算 机 互 连 架 构 中 的 创新 提升 了 系统 整体 
性 能 。 今 日 ， 一 个 共享 存储 器 系统 可 运行 多 个 应 用 程序 ， 并 人 允许 程序 与 多 种 IO 设备 同步 通 
信 。 此 外 ， 在 互 连 结构 中 的 创新 生成 了 “ 即 插 即 用 ”1/O 设备 接口 ， 使 得 现代 微型 计算 机 用 
户 可 便捷 地 使 用 大 量 的 IO 设备 。 
所 有 的 IO 设备 并 不 是 以 同样 的 方式 进行 运转 的 ， 各 个 设备 的 频率 、 速 度 、 通 信和 数据 量 
的 大 小 都 是 不 同 的 。 此 外 ， 在 某 些 情况 下 ， 处理 器 必须 直接 参与 某 些 存储 器 的 通信 过 程 。 在 
男 外 某 些 情况 下 ， 当 系统 中 的 某 些 设备 需要 服务 时 ， 处 理 右 需要 轮 询 设备 以 提供 服务 (如 发 
送 和 接收 数据 )， 或 者 设备 通过 中 断 的 方式 告知 处 理 器 其 需要 服务 。 从 专用 目的 处 理 器 到 存 
储 器 单元 、LIO 设备 等 多 种 系统 组 件 的 运转 方式 是 不 同 的 ， 并 且 ,， 与 处 理 器 相 比 其 运行 速度 
也 多 种 多 样 ， 需 要 使 用 特殊 的 硬件 模块 ， 将 这 些 组 件 与 一 个 或 多 个 处 理 器 互 连 起 来 。 
存储 器 控制 器 控制 时 序 并 响应 存储 器 读 写 请 求 。 设 备 控制 器 接口 (DCI) 已 在 第 1 章 中 
介绍 ， 其 可 以 是 一 个 简单 的 也 可 以 是 一 个 复杂 的 舱 入 式 系 统 ， 在 处 理 器 和 1/O 设备 以 及 处 理 
器 和 存储 器 之 间 扮 演 一 个 “中 间 人 ”的 角色 。 通 过 一 个 被 称 为 桥 的 部 件 转 换 一 个 组 件 (如 处 
理 器 ) 使 用 的 通信 协议 为 其 他 设备 (如 GPU 和 磁盘 DCI) 使 用 的 典型 的 标准 协议 。 
作为 一 个 简单 的 能 入 式 系统 ， 一 个 DCI 是 一 个 典型 的 微 控 制 器 ， 如 后 文 的 论述 ， 这 是 
一 个 包含 CPU、RAM、ROM 以 及 用 于 接口 的 其 他 模块 的 小 系统 。 每 个 IO 设备 额外 需要 一 
个 设备 控制 器 (DC), DC 是 一 个 微 控 制 器 ， 来 控制 设备 硬件 的 相关 动作 。 例 如 ， 一 个 键盘 
设备 控制 器 控制 键盘 的 硬件 ， 磁 盘 控 制 器 控制 磁盘 驱动 器 的 硬件 等 。 一 个 通过 有 线 或 无 线 连 
接 到 DC 的 DCI 执行 下 面 两 个 任务 : 
© 它 通过 将 控制 数据 发 送 到 DC 来 控制 设备 的 功能 。 
e DCI 通过 与 DC 通信 来 与 设备 交换 数据 。 其 可 以 从 一 个 输入 设备 (如 键盘 ) 中 接收 到 
数据 ， 也 可 以 发 送 数 据 到 一 个 输出 设备 (如 打印 机 ),， 或 者 既 从 一 个 磁盘 驱动 器 或 网 
络 适 配器 中 接收 数据 ， 也 向 其 发 送 数据 。 
此 外 ， 为 了 支持 即 插 即 用 式 设备 ， 现 代 微 型 计算 机 使 用 一 个 或 多 个 通用 目的 DCI， 如 一 
个 与 通用 串 行 总 线 (USB) 设备 连接 的 接口 通常 被 称 为 主 控制 器 接口 。USB 主 控制 器 可 同时 
与 多 种 类 型 的 USB 设备 进行 连接 和 通信 。 
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在 这 一 章 ， 我 们 将 讨论 4 代 互 连 架 构 ， 从 单 总 线 到 多 总 线 架 构 ， 从 集成 架构 到 基于 连接 
的 点 到 点 架构 。 本 章 将 展示 一 系列 IO 设备 ， 着 重 说 明 其 通信 需求 ， 并 说 明 用 于 设计 DCI 和 
DC 的 IO 端口 (在 第 1 章 中 开始 介绍 )。 

本 章 将 讨论 中 断 、 中 断 结构 和 与 存储 器 直接 进行 设备 通信 的 相关 要 求 ， 也 展示 了 相关 的 
电路 模块 。 提 供 一 个 中 断 处 理 电路 的 CPU 数据 通路 示例 供 读者 熟悉 中 断 处 理 机 制 ， 并 熟悉 
CPU 给 设备 提供 服务 的 必要 步骤 。 并 讨论 说 明 提 升 性 能 的 可 选择 的 中 断 结构 。 最 后 ， 为 了 
使 读者 更 好 地 理解 主 控制 器 接口 执行 任务 的 过 程 ， 本 章 将 展示 一 个 USB 主 控制 器 接口 的 内 
部 组 织 结构 和 通信 协议 。 


互 连 染 构 


单一 总 线 系统 的 体系 结构 比较 简单 ， 所 有 系统 模块 共享 单一 的 总 线 进行 通信 。 然 而 ， 随 
着 微 处 理 器 和 存储 器 的 速度 出 现 分 歧 ， 单 一 总 线 架构 不 再 能 有 效 地 工作 。 处 理 器 工作 的 时 钟 
频率 比 系统 中 其 他 模块 要 高 。 此 外 ， 因 为 处 理 器 使 用 专用 的 总 线 来 与 处 理 器 和 其 他 设备 进行 
通信 ， 设 备 制 造 商 需 要 使 用 一 系列 的 标准 IO 总 线 来 连接 DCI 与 存储 器 或 处 理 器 。 反 过 来 ， 
这 造就 了 几 代 多 总 线 系统 架构 。 

为 了 简化 设计 并 降低 个 人 计算 机 的 成 本 ， 包 含 存 储 器 控制 器 、 特 定 的 桥 和 DCI 在 内 的 
多 个 模块 被 集成 到 两 个 IC 中 : 一 个 IC 芯片 是 用 于 连接 〈 如 处 理 器 或 可 选 的 GPU) 快速 模块 
到 存储 器 ， 男 一 个 IC 芯片 是 用 于 连接 多 种 标准 VO 总 线 接 口 的 DCI。 然 而 ， 虽 然 集成 互 连 
架构 在 处 理 器 核心 有 限 的 情况 下 可 以 工作 得 很 好 ， 但 是 随 着 处 理 器 的 数量 和 每 个 处 理 器 中 核 
心 的 数量 的 增加 ， 这 一 架构 会 有 一 个 存储 器 瓶颈 。 

这 种 集成 的 互连网 络 也 不 是 可 扩展 的 ， 不 可 以 使 用 更 多 的 存储 器 单元 来 增加 存储 器 带 
宽 。 因 此 ， 需 要 一 种 可 扩展 的 互 连 架 构 ， 人 允许 在 不 显著 增加 存储 器 延迟 的 情况 下 增加 存储 器 
带宽 。 

1. 单 总 线 

图 9-1 阐述 了 一 个 单 总 线 架 构 ， 其 包含 一 个 CPU 、 一 个 存储 器 单元 和 3 个 用 于 与 3 个 
外 围 设 备 连接 的 DCI。 总 线 包 括 一 个 地 址 总 线 (AB )、 一 个 双向 数据 总 线 (DB) 和 一 个 控制 
总 线 (CB). CPU 将 使 用 总 线 来 访问 存储 器 并 和 其 他 DCI 通信 。 例 如 ，CPU 将 把 寄存 器 中 
的 内 容 作为 数据 或 命令 发 送 给 DCI， 相 应 的 ，CPU 也 可 通过 DCI 接收 来 自 DC 的 数据 和 状 
态 信息 。 

总 线 也 用 于 在 磁盘 驱动 器 和 存储 器 之 间 传 输 大 量 数据 (如 读 一 个 文件 )。 然 而 ,为 了 使 
计算 机 按 预期 运转 、 正 常 运 行程 序 、 无 延迟 地 接受 用 户 的 输入 数据 等 ， 即 使 总 线 上 正在 进 
行 存 储 器 读 取 磁 盘 中 内 容 或 往 磁 盘 中 写 内 容 等 工作 ，CPU 依旧 会 使 用 总 线 来 访问 存储 器 。 
因为 这 个 原因 ， 男 一 个 模块 称 为 直接 存储 器 访问 (DMA) 控制 器 ， 将 被 使 用 。 磁 盘 DCI 和 
DMA 控制 器 都 将 从 CPU 接收 命令 ， 在 磁盘 和 存储 器 之 间 传 输 大 数据 块 ， 在 实际 传输 数据 过 
程 中 ，CPU 将 不 涉 入 传输 过 程 。CPU 和 DMA 控制 器 将 共享 总 线 ， 轮 流 访 问 存储 器 。 然 而 ， 
当前 只 有 微 控制 器 使 用 单 总 线 结构 。 

2. 多 总 线 

图 9-2 阐述 了 一 个 使 用 mezzanine 总 线 等 级 的 多 总 线 系统 架构 示例 [1]。 它 使 用 一 个 前 
端 总 线 (FSB) 和 一 系列 标准 VO 总 线 的 结合 ， 如 表 9-1 所 示 。 对 表 9-1 中 的 外 围 设备 的 处 理 


HEMRAH: Z4 295 


方式 也 不 一 样 ; 它们 将 被 分 为 慢 速 设备 、 中 速 设备 和 高 速 设备 。 在 图 中 ， 标 准 IO 总 线 的 等 
级 用 于 将 高 速 设备 和 常用 的 通信 设备 与 慢 速 和 不 常用 的 设备 区 分 开 。 


总 线 ( AB, CB, DB ) 


键盘 鼠标 磁盘 驱动 器 


存储 器 单元 电缆 电线 电缆 
[pc | [pc | [Dc | 
DCI: 设备 控制 器 接口 鼠标 磁盘 驱动 器 
MC: 存储 器 控制 器 om 
DC: 设备 控制 器 ( 典型 的 微 控制 器 ) 外 围 设 备 
图 9-1 一 个 简单 的 微型 计算 机 系统 架构 
CPU 
存储 器 单元 FSB 
PCI-E 
eo 
存储 器 总 线 下 
(如 DDR SDRAM) #2 hl ae 
PCI-E 


SATA 总 线 


Za USB 主 控制 | USBI Ses 
器 接口 | USBRH 
SATA SATA 
DCI DCI oma 
以 太 网 


VGA 


zm 
连接 
EJ PCl 总 线 
DCI 


USB PCI 
主 控制 器 | agr mt 
=O 
以 太 网 电缆 连接 USB 根 
集线器 


DCI: 设备 控制 器 接口 USBSR KĘ 
鼠标 


图 9-2 ”包含 前 端 总 线 和 /0 总 线 的 多 总 线 微型 计算 机 架构 
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表 9-1 现代 总 线 列表 


名 称 i: $ 
AHB 先进 高 性 能 总 线 
APG 图 形 加 速 端口 ， 包 括 APG-2x, 4x 等 


高 级 技术 附件 ， 包 括 ATA-1, 2 等 ， 也 被 称 为 并 行 ATA( PATA ) 或 集成 驱动 电路 (IDE) 
和 串 行 ATA (SATA) 


DMI 直接 媒体 接口 总 线 ， 包 括 HDMI 

DVI 数字 媒体 接口 

FireWire 火线 

a 外 围 设 备 组 件 互 连 标准 ， 包 括 PIC-bus 、PCI-X、PCI 串 行 总 线 (PCI-E 或 Pcle) 和 紧凑 型 
PCI (CPCI) 

SCSI 小 型 计算 机 系统 接口 ， 包 括 SCSI-1, 2 等 以 及 超级 SCSI 

USB - ABABA, 包括 USB1.x, 2.0 等 

VGA 视频 图 形 适 配器 


一 个 存储 器 控制 器 和 两 个 PCI-E 桥 通过 接口 与 FSB 连接 。 桥 是 用 于 连接 GPU 并 提升 
FSB 与 其 他 LO 设备 通信 的 速度 。 在 这 种 情况 下 ， 与 IO 设备 连接 的 PCI-E 总 线 通过 一 个 以 
AM DCI、 一 个 USB 主 控制 器 接口 、 一 个 串 行 高 级 技术 附件 (SATA) 桥 、 一 个 视频 图 形 阵 
列 (VGA) 桥 、 一 个 DMA 控制 器 、 一 个 低速 PC] 总 线 扩展 桥 来 连接 系统 中 的 其 他 部 件 ， 并 
成 为 一 个 母 板 。 

SATA 总 线 文 持 与 SATA 硬盘 和 光盘 驱动 器 的 链 式 连接 。 二 级 USB 主 控制 器 接口 通过 
一 个 可 用 的 PIC 总 线 扩展 槽 显 式 安装 ,与 USB 键盘 和 USB 鼠标 相连 接 。 鼠 标 和 键盘 通过 位 
于 其 中 的 USB 集线器 连接 系统 。 每 个 设备 通过 USB 端口 与 系统 连接 ， 并 通过 一 个 或 多 个 
USB RAMI USB 根 集线器 与 USB 主 控制 器 接口 相通 信 。 

3. 集成 架构 

通过 使 用 互 连 芯片 ， 如 被 称 为 北桥 的 存储 器 控制 中 心 (MCH) 和 被 称 为 南 桥 的 输入 / 输 
出 控制 中 心 (ICH)， 简 化 了 Intel 和 AMD 下 一 代 计 算 机 系统 的 板 级 设计 ， 如 图 9-3 所 示 。 原 
来 分 散在 母 板 上 的 各 模块 被 集成 到 MCH 和 ICH 芯片 中 。 在 图 中 ，MCH 包含 一 个 存储 器 
控制 器 、 一 个 连接 到 可 选 的 加 速 器 (如 GPU) 的 桥 和 一 个 连接 到 ICH 的 桥 。ICH 包含 一 个 
DMA 控制 希 、 一 个 HDA 接口 、 一 个 USB 主 控制 器 接口 、 一 个 网 络 DCI 和 一 系列 与 标准 总 
线 连接 的 桥 。 

存储 器 集线器 后 来 扩展 为 可 支持 多 个 处 理 器 运作 ， 生 成 了 一 种 统一 存储 器 访问 ( UMA) 
染 构 ， 但 这 种 架构 只 有 在 处 理 器 核心 (CPU) 数量 很 少时 (如 4 个 ) 才 有 较 高 的 效率 。 随 着 
处 理 融 核心 的 增加 ， 对 存储 器 的 访问 增多 ，UMA 会 导致 存储 器 访问 延迟 变 长 。 

4. 点 对 点 架构 

图 9-4 说 明了 一 个 基于 Intel 的 快速 通道 链接 或 AMD 的 超 传输 或 隧道 传输 架构 的 可 扩 
展 的 非 同一 存储 器 访问 架构 的 示例 。 这 个 链接 是 用 于 在 处 理 器 之 间 生 成 一 个 一 对 一 的 互连网 
络 ， 以 提供 连续 的 点 到 点 的 通信 。 处 理 器 不 再 通过 公用 的 FSB 来 访问 存储 器 ， 每 个 处 理 器 
都 是 直接 访问 其 自身 的 存储 器 ， 生 成 一 个 NUMA 架构 。 正 如 第 7 章 中 所 讨论 的 ,在 NUMA 
架构 中 平均 存储 器 访问 延迟 比 UMA 架构 少 。 而 且 ， 当 系统 中 互 连 的 处 理 器 增多 时 ， 在 
NUMA RAR, 平均 存储 器 访问 延迟 只 会 缓慢 增加 。 
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此 外 ， 由 于 对 单 蕊 片 租 入 式 系统 (片上 系统 或 SoC) 的 需求 的 增加 ， 更 多 模块 ， 如 存储 
器 集线器 ， 将 集成 到 处 理 器 芯片 中 。 例 如 ， 在 Intel 的 Sandy Bridge 架构 中 ， 一 个 单独 的 处 
理 器 芯片 包含 了 一 个 存储 器 控制 器 、PCI-E 和 其 他 桥 。 图 9-5 说 明了 一 个 双 节 点 的 NUMA 


处 理 器 


前 端 总 线 ( FSB ) 
存储 器 控制 中 心 (MCH ) 


专用 /定制 的 | PC-E ; 存储 器 存储 器 
mikes . | 控制 器 单元 


(如 GPU) 











PCI-bus 


MO 控制 中 心 
(ICH ) 


图 9-3 ”采用 互 连 集成 电路 的 集成 微型 计算 机 系统 架构 





专用 /定制 的 一 


图 9-4 现代 微型 计算 机 NUMA 架构 
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最 多 4 通 追 的 DDR3 
1333/1600MHz 


最 多 4 通道 的 DDR3 
1333/1600MHz 


最 多 40 端 口 的 
PCle*3.0 


最 多 40 端 口 的 
PCle*3.0 









x4 DMI 2.0 
最 多 4 个 SAS 端 口 
( 3Gb/s ) 





14 个 USB2.0 端 口 
2 个 第 三 代 串 行 ATA 端 口 8 个 PCle*2.0 端 口 


intel* 82579LM Gb 
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ICH 
9-5 双 节 点 NUMA 系统 (由 Intel 提供 ) 


9.2 ”存储 希 控 制 怖 


存储 器 控制 器 负责 响应 存储 器 的 请 求 操 作 。 它 的 复杂 性 取决 于 所 使 用 的 处 理 融 和 内 存单 
元 的 通信 协议 。 例 如 ， 一 个 简单 的 包含 静态 随机 存 取 存 储 器 (SRAM) 的 单 总 线 架 构 要 求 一 个 
简单 的 存储 器 控制 器 。 另 一 方面 ， 使 用 如 Intel 处 理 器 的 FSB 的 复杂 总 线 的 现代 系统 与 设备 ， 
如 同步 动态 随机 存 取 存储 器 (SDRAM)， 通 信 时 ， 将 需要 一 个 更 加 复杂 的 存储 器 控制 器 。 
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图 9-6 ER T —A a ae AIRA EARE PT as A Th 4 E A 
( CC)。 处 理 器 控制 总 线 包含 4 个 信和 号， 标记 为 地 址 选 通 信号 〈(_as)、 写 信和 号 (Cwr) eas 
(rd) 和 确认 信号 (如 ack)。 当 信号 _as 选中 时 ， 将 开始 一 个 存储 器 读 或 写 周 期 。 as、_wr 
和 rd 信号 是 从 处 理 器 视角 的 典型 的 存储 器 控制 信号 ， 而 ce. we 和 oe 信 号 (第 7 章 中 
介绍 ) 是 典型 的 从 存储 器 视角 的 控制 信和 号。 


_me: 存储 器 使 能 
| _we: 写 使 能 
MCU ack: 确认 ( 数据 准备 好 ) 


9-6 ”处 理 恬 视角 的 SRAM 控制 单元 
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如 果 存 储 器 有 多 个 存储 器 单元 ，_as 信号 和 目标 存储 器 地 址 将 用 于 生成 _ce 信号 从 而 确 
定 访问 哪个 存储 器 单元 。 在 图 中 ， 假 定 了 这 个 系统 只 有 一 个 存储 器 单元 ， 因 此 as 信号 直接 
与 SRAM 存储 器 单元 中 的 _ce 信号 相连 。 

正如 图 中 所 示 ， 当 as 选中 时 ， 存 储 器 单元 和 计数 器 都 将 使 能 。 计 数 器 一 旦 使 能 ， 将 
在 每 个 时 钟 周 期 递增 ， 并 当 as 信号 变 为 无 效 或 者 主机 reset 信号 选中 时 ， 计数 器 将 异步 
复位 。 计 数 需 是 用 于 统计 访问 存储 器 所 需 的 等 待 周期 数 ， 等 待 周期 数 与 存储 器 访问 时 间 
成 正比 。 计 数 器 模块 维持 一 个 ack 信号 ， 通 过 ack 信和 号 通知 处 理 器 完成 了 一 个 存储 器 读 
或 写 操 作 。 当 处 理 器 等 待 ack 信和 号 被 选中 时 ， 处 理 器 被 称 为 处 于 等 待 状态 (也 被 称 为 空闲 
状态 )。 


| 3 个 等 待 状态 | 
e ， 





| < 一 一 = 传输 时 间 


| 一 一 一 t5 
tO 读 访 问 时 间 i4 
读 周期 
9-7 ”从 处 理 器 视角 阐明 了 一 个 简单 的 SRAM 读 周 期 


图 9-7 从 处 理 器 视角 阐明 了 一 个 存储 器 读 周期 。 处 理 器 等 竺 周期 数 取决 于 公式 (9-1 )。 
标记 [表示 向 上 取 整 函数 ，z 为 总 线 的 时 钟 周期 ，m 为 处 理 器 检测 到 ack = 1 并 结束 该 存储 周 
期 所 需要 的 时 钟 周期 数 。 例 如 ， 假 设 图 中 的 时 钟 周期 为 10ns， 存储器 读 周 期 为 45ns， 处 理 
器 需要 一 个 时 钟 周 期 来 检测 到 ack = 1， 需 要 另 一 个 周期 来 结束 读 周期 。 根 据 公 式 (9-1 )。 
等 待 周期 数 为 3 (「 45ns/10ns 1- 2= 3 )。 

fe 4 Ba = Max( 读 访问 时 间 ， END] (9-1) 


T 
在 图 中 ， 三 条 带 箭 头 的 虚线 表示 信和 号 依赖 和 关系， 通常 被 称 为 信号 握手 。 处 理 器 与 存储 器 
控制 器 通信 起 始 于 处 理 硕 将 目标 地 址 放置 到 地 址 总 线 上 并 选中 as 信号 ， 这 表示 存储 周期 开 
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始 于 t0 时 刻 。_as 信和 号 变 为 有 效 电 平 将 使 能 计数 器 和 存储 器 单元 。 当 存储 周期 开始 后 ， 第 4 
个 时 钟 周期 tl 时 计数 器 的 值 变 为 3。 并 导致 ack 信号 在 世 时 (图 9%-6 中 ，Acc=t2 -tl) 变 
为 1。 这 通过 图 中 从 _as = 0 到 ack = 1 的 第 头 说 明 。 

当 处 理 器 在 03 时 检测 到 ack = 1 (一 个 时 钟 周期 之 后 )， 在 下 一 个 时 钟 周 期 ， 即 t5 时， 
处 理 器 从 等 待 状态 转 为 准备 好 状态 ， 加 载 数 据 到 其 内 部 寄存 器 中 。 如 图 所 示 ， 存 储 器 从 t4 
(45ns = t4 — t0 ) 时 开始 ， 将 数据 放置 到 数据 总 线 上 。 处 理 器 在 t6 时 ,将 as 信号 置 为 无 效 ， 
使 之 变 为 1。 在 t 时，ack 信号 电 平 变 为 0， 为 无 效 电 平 ，as 信号 为 1， 计数 器 复位 ， 处 理 
器 和 存储 器 之 间 的 通信 结束 。 在 图 中 ， 这 一 过 程 是 通过 从 ack 变 为 1 到 as 信号 变 为 1 和 从 
_as 信号 变 为 1 到 ack 信和 号 变 为 0 的 两 个 带 箭 头 的 虚线 阐述 说 明 的 。 下 一 个 存储 周期 可 从 第 
8 个 时 钟 周 期 或 之 后 开始 。 

存储 器 的 写 周期 与 读 周期 过 程 相似 ， 不 同 之 处 在 于 当 处 理 器 检测 到 ack = 1 时 ， 可 将 数 
据 从 数据 总 线 上 移 除 。 再 次 ， 我 们 假定 处 理 需 需要 一 个 时 钟 周期 来 检测 ack = 1， 并 需要 为 
一 个 时 钟 周 期 来 将 数据 从 数据 总 线 上 移 除 ， 正 如 我 们 在 读 周 期 中 做 的 那样 ack 信和 号 可 能 更 
早 被 选中 。 此 外 ， 如 果 存 储 句 读 访 问 时 间 和 写 访问 时 间 不 同 ， 存 储 器 控制 器 可 能 实现 两 个 不 
同 的 等 竺 周期 ， 一 个 基于 存储 器 读 访 问 时 间 ， 另 一 个 基于 存储 器 写 访 问 时 间 。 

对 于 一 个 动态 随机 存 取 存储 器 (DRAM), 与 SRAM 中 讨论 的 控制 絮 相 似 ， 其 存储 器 
控制 器 也 需要 一 个 计数 船 。 此 外 ，DRAM 存储 器 控制 器 需要 一 个 电路 来 实现 刷新 周期 。 
然而 ， 当 一 个 刷新 周期 触发 时 ， 典 型 的 ， 存 储 器 控制 器 将 允许 当前 的 读 或 写 周 期 (如 果 
有 ) 在 刷新 周期 进行 之 前 完成 操作 。 一 个 新 的 读 / 写 周期 只 能 在 正在 进行 的 刷新 周期 完成 
后 开始 。 


9.2.2 ”现代 存储 器 控制 颖 


图 9-8 说 明了 一 个 与 复杂 的 FSB 和 当代 的 存储 器 单元 相连 接 的 存储 右 控 制 器 。 该 控 
制 右 解释 从 复杂 总 线 上 接收 到 的 存储 器 请 求 并 通过 标准 DDR SDRAM 总 线 与 一 个 双 速 率 
(DDR) SDRAM 进行 通信 。 表 9-2 说 明了 移动 Intel 奔腾 4 处 理 器 的 533MHz FSB 的 部 分 信 
号 。 一 个 FSB 或 者 一 个 复杂 的 串 行 链接 ， 例 如 Intel 的 快速 通路 ， 采 用 分 离 事务 的 方式 与 一 
个 存储 器 控制 器 进行 通信 。 一 个 分 离 事务 包括 一 个 事务 请 求 和 一 个 事务 响应 。 


复杂 的 前 端 总 线 
数据 总 线 







如 Intel 处 理 器 FSB 


DDR SDRAM 总 线 | 基于 DDR SDRAM 
的 存储 器 单元 


9-8 复杂 的 存储 器 控制 器 
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表 9-2 移动 Intel 奔腾 4 处 理 器 的 533MHz FSB 的 部 分 信号 


信号 名 称 功 能 
A[35:3]# 地 址 总 线 (AB) 
D[63:0]# | ”DB | 数据 总 线 (DB) 
REQ[4:0]# 请 求 总 线 命令 (定义 了 总 线 事务 类 型 ) 
ADS# 地 址 选 通 ， 表 明 AB 上 地 址 是 合法 的 
jt 通过 目标 模块 ， 地 址 选 通 0 将 锁 存 A[16:3] 和 REQ#[4:0]， 地 址 选 通 1 

将 锁 存 A[35:17] 
AP[1:0]# 地 址 校 验 位 
DBI[3:0]# 数据 总 线 反 转 ( 16 位 一 组 ， 说 明 DB 信号 的 极 性 ) 
DP[3:0]# 数据 校 验 位 
DRDY# 数据 准备 好 信号 
DSTBN[3:0]# 数据 负 边 沿 选 通 (用 于 从 DB 中 载 人 数据 ，16 位 一 组 ) 
DSTBP[3:0]# 数据 正 边沿 选 通 
RS[2:0]# 响应 状态 (完成 事务 的 状态 ) 
RSP# 响应 校 验 位 (通过 校 验 保护 RS[2:0]#) 
RESET# 处 理 器 复位 
BCLK[1:0] FSB 时 钟 差分 信号 对 (2 个 时 钟 信号 彼此 相反 ) 
ase 
BINIT# 总 线 初始 化 信号 (如 复位 总 线 仲裁 状态 机 ) 
BNR# 阻止 下 一 请 求 ( 挂 起 总 线 ) 
BPRI# 总 线 优先 请 求 ( 用 于 其 他 设备 请 求 访问 FSB) 
BRO# 总 线 请 求 信号 ， 用 于 处 理 器 请 求 总 线 访问 
DBR# 数据 总 线 复位 (用 于 调试 ) 
DBSY# 数据 总 线 忙 (表明 DB 正在 被 使 用 ) 
DEFER# 推迟 事务 ( 当 active 表明 总 线 事务 无 法 完成 ) 
HIT# Snoop 命中 (用 于 cache 访问 一 致 性 ) 
HITM# Snoop 命中 修正 (如 果 与 HIT# 同时 使 用 ， 表 明 需 要 一 个 snoop 停顿 ) 
LINT[1:0] 本 地 APIC (高 级 可 编程 中 断 控制 器 ) 中 断 信号 5 
core ”表明 原子 的 总 线 事务 ， 确 保 没有 新 的 请 求 事务 被 允许 到 相同 的 存储 单 |, 
元 ， 直 到 这 一 存储 单元 中 的 未 完成 的 请 求 事务 的 响应 事务 完成 383 


一 个 读 请 求 事务 包含 一 个 地 址 和 一 个 命令 (如 读 )。 一 个 写 请 求 事务 还 包含 了 数据 。 一 
个 响应 事务 包含 一 个 或 多 个 确认 信号 ， 当 响应 一 个 读 请 求 时 ， 响 应 事务 还 包含 数据 。 一 个 典 
型 的 现代 存储 器 控制 器 可 处 理 多 个 未 完成 的 分 离 事 务 。 

在 表 中 ， 标 记 # 是 用 于 表示 低 电 平 使 能 信号 。 使 用 533MHz FSB 的 移动 Intel 奔腾 4 处 
理 器 [2] 有 478 个 管 脚 ， 其 中 部 分 信号 因为 将 用 于 与 电源 或 地 相连 接 、 电 源 管 理 、 板 级 设 
计 间 题 、 性 能 测试 、 总 线 错 误 信 号 、 事 务 流 控制 和 测试 等 工作 而 保留 。CPU 中 有 36 个 管 
脚 用 于 地 址 总 线 (A[35:3]#)， 其 可 访问 2” 字 节 的 物理 空间 ， 有 5 个 管 脚 用 于 解决 存储 器 命 
A (REQ[4:0]#)，64 个 管 脚 用 于 数据 总 线 (D[63:0]#) 。 一 个 请 求 事务 (如 地 址 和 命令 ) 通 
过 地 址 选 通信 和 号 来 解决 ， 其 中 地 址 选 通信 号 (ADS#) 是 由 存储 器 控制 器 在 2 个 部 分 中 使 用 
2 个 额外 的 选 通信 号 (ASTB[1:0]#) 来 锁 存 。ADS# 用 于 启动 或 结束 一 个 存储 器 请 求 事务 ， 
ASTB[1]# 和 ASTV[0]# 用 于 控制 时 钟 信 号 ， 来 加 载 目 标 地 址 的 高 位 和 低位 数据 到 位 于 存储 
器 控制 器 中 的 两 个 寄存 器 缓冲 区 中 。 
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响应 事务 包含 一 个 数据 准备 好 信号 (DRDY#)， 一 个 3 位 响应 码 (RS[2:0]#)， 以 及 响 
应 读 命令 的 数据 。 如 果 响 应 事务 包含 数据 ， 它 将 被 处 理 器 在 数据 选 通 信号 的 4 个 负 边 沿 
(DSTBN[3:0]#) 或 正 边 沿 (SDTBP[3:0]#) 锁 存 。36 位 的 地 址 、64 位 的 数据 和 3 位 的 啊 应 码 
也 都 包含 奇偶 错误 校 验 位 ， 其 中 AP[1:0] 用 于 校 验 地 址 ，DP[3:0] 用 于 校 验 数据 ，RSP# 用 于 
校 验 啊 应 码 。 表 中 所 列 的 剩余 控制 总 线 信号 是 用 于 处 理 cache 存储 器 (第 10 章 中 讨论 )、 外 
围 设 备 的 服务 请 求 以 及 当 有 两 个 或 多 个 CPU 试图 修改 共享 存储 器 中 某 地 址 内 容 时 的 原子 总 
线 访问 。 同 一 时 间 只 人 允许 一 个 CPU 修改 共享 存储 器 中 的 内 容 。 

现代 存储 器 控制 器 在 处 理 器 和 存储 器 之 间 担 任 中 间 人 的 角色 ， 其 通过 FSB 连接 CPU, 
另 一 端 与 使 用 SDRAM 模块 的 存储 器 相连 。 处 理 器 通过 使 用 ， 如 表 9-2 中 的 A、D、REQ、 
ADS 和 ADSTB 总 线 信 号 ， 来 发 出 一 个 向 存储 器 控制 器 请 求 访 问 存储 器 的 事务 。 控 制 右 将 记 
录 该 事务 ， 并 转换 FSB 的 通信 协议 为 SDRAM 总 线 上 使 用 的 协议 ， 反 之 亦 然 。 可 参考 第 7 
章 中 SDRAM 总 线 事务 的 示例 。 


9.3 1/O 外 围 设备 


每 一 个 外 围 设 备 都 要 求 一 个 专用 的 通信 协议 来 控制 速率 和 数据 大 小 。 例 如 ， 键 盘 在 某 个 
按键 按 下 时 将 生成 一 个 小 的 数据 (如 一 个 按键 值 )。 而 磁盘 驱动 器 是 用 于 快速 传输 大 数量 数 
据 的 机 电 装 置 ， 磁 盘 有 多 个 用 于 记录 的 柱 面 ， 每 个 柱 面 有 多 个 磁道 (和 CD 上 的 磁道 相似 )。 
每 个 磁道 被 分 为 多 个 相等 大 小 的 区 域 ， 这 个 区 域 叫 作 扇 区 。 每 个 柱 面 有 其 自己 的 读 / 写 头 ， 
某 些 磁盘 可 同步 从 多 个 户 区 中 传输 数据 。 

例如 ， 考 虑 Samsung 260GB 的 硬盘 (如 HD642JJ)。 这 一 磁盘 转速 为 7200 转 /分 (RPM)， 
在 与 16MB 的 内 置 存储 器 (DRAM) 之 间 ， 峰 值 传输 速率 为 173Mbps( 兆 位 每 秒 )。 内 置 存 储 希 ， 
也 被 称 为 缓冲 区 ， 是 用 于 临时 存储 从 主 存储 器 中 读 出 或 向 主 存储 器 中 写 入 的 悄 区 数据 。 在 组 
冲 区 和 主 存储 器 之 间 的 峰值 传输 速率 为 300Mbps。 其 扇 区 大 小 为 512B。 现 代 个 人 计算 机 使 用 
户 区 大 小 为 4KB 的 磁盘 ， 某 些 现代 磁盘 驱动 器 可 以 运转 在 10 000RPM 或 更 高 的 速率 之 上 。 

Samsung 便 盘 驱动 器 平均 查找 时 间 为 8.9ms (毫秒 )， 其 为 移动 磁盘 读 / 写 头 到 一 个 特定 磁道 
上 所 需要 的 时 间 。 磁 盘 驱动 器 的 平均 延 时 为 417ms， 其 为 旋转 磁盘 50% (磁道 周 长 的 一 半 ) 所 需 
要 的 时 间 。 这 就 是 说 ， 当 磁盘 转速 为 7200RPM， 旋 转 一 半 (50%) 所 需要 的 时 间 ( 0.5/7200RPM)。 
两 者 时 间 之 和 为 磁盘 进行 读 或 写 操作 时 确定 并 移动 到 目标 鹿 区 所 需要 的 近似 时 间 。 

使 用 Samsung 磁盘 驱动 器 的 平均 传输 时 间 和 峰值 传输 速率 等 性 能 参数 ， 确 定 
传输 512B 数据 (数据 在 一 个 硝 区 内 ) 到 存储 器 所 需要 的 近似 平均 时 间 。 

解 : 将 而 区 数据 复制 到 存储 需 中 需要 完成 4 个 连续 的 任务 : 

任务 1: 搜索 目标 磁道 ， 其 平均 查找 时 间 为 8.9ms。 

任务 2: 确定 目标 扇 区 ， 其 平均 延迟 为 4.17ms。 

任务 3: 从 局 区 中 复制 数据 传输 到 内 置 存储 右 中 ， 其 传输 的 峰值 速率 为 175Mbps。 

任务 4: 从 内 置 存 储 器 中 复制 数据 到 主 存 储 器 中 ， 其 传输 的 峰值 速率 为 300Mbps。 

从 磁盘 局 区 传输 512B 数据 到 主 存储 器 中 的 平均 近似 时 间 为 13.075ms ， 计 算 公 式 如 下 : 
| 512B | 512B 
175Mbps 300Mbps 
=13.07ms + 0.0029ms + 0.0017ms 
=13.075ms 


75si2 = 8.9ms + 4.17ms + 
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输 过 程 与 从 存储 器 往 磁 盘 中 传输 数据 的 方式 相似 ， 唯 一 不 同 的 是 在 数据 写 到 目标 扇 区 之 前 ， 
其 需要 从 存储 器 中 复制 数据 到 内 部 缓冲 区 。 ai 

RAID (独立 磁盘 元 余 阵 列 ) 的 设计 是 用 于 提升 磁盘 的 带宽 和 可 靠 性 。 例 如 ，RAID PR 
据 采 用 交叉 存 取 的 方式 ， 与 存储 器 中 交叉 存 取 (第 7 章 ) 相似 ， 通 过 将 一 个 单条 记录 的 数据 
存储 到 多 个 局 区 上 ， 每 个 独立 的 磁盘 上 存储 一 片 数据 ， 从 而 提升 RAID 的 带宽 。 数 据 交 叉 存 
储 可 以 在 位 级 (RAID-2 和 RAID-3 ) 或 在 块 级 ( RAID-0、RAID-4 和 RAID-6 ) 使 用 。 可 重 
复 使 用 文件 的 副本 从 而 实现 文件 存储 元 余 ( RAID-1 )。 错 误 校 验 码 可 以 用 于 避免 存储 宛 余 所 
需 的 额外 消耗 ， 其 在 一 个 或 两 个 磁盘 失败 ， 如 在 RAID-2 到 RAID-4 中 一 个 磁盘 失败 ， 或 在 
RAID-6 和 RAID DP (DP: 双重 奇偶 校 验 ) 中 两 次 磁盘 失败 的 情况 下 ， 实 现 了 恢复 机 制 。 

其 他 没有 机 械 部 件 的 设备 可 以 以 更 高 的 速率 进行 通信 。 例 如 ， 以 太 网 适配器 可 在 两 个 通 
信 的 计算 机 之 间 以 10Mbps、100Mbps 或 更 高 的 速率 传输 数据 。 在 这 种 情况 下 ， 数 据 来 自 于 
存储 器 ， 并 通过 DMA 控制 器 和 该 适配器 的 DCI 来 与 接收 数据 的 计算 机 进行 通信 。 接 收 数据 
的 计算 机 通过 它 自 己 的 DCI Al DMA 控制 器 来 接收 数据 ， 并 传输 数据 到 主 存储 器 中 。 


9.4 控制 和 连接 |/O 设备 


外 围 设备 有 慢 速 、 中 速 和 高 速 3 种 ， 每 种 设备 都 需要 一 个 不 同 频率 的 时 钟 ， 并 以 不 同 的 
传输 速率 传输 数据 。 一 些 设备 可 能 包含 机 械 设 备 ， 其 运转 方式 与 数字 系统 不 同 ， 可 能 要 求 将 
数据 转换 为 数字 信和 号。 在 一 个 设备 中 ， 数 据 格 式 和 信和 号 的 电 平 与 其 在 处 理 器 或 存储 器 中 使 用 
的 并 不 相同 。 此 外 ， 处 理 器 可 在 不 影响 其 他 设备 功能 的 前 提 下 与 各 个 设备 进行 通信 。 

一 个 DCI 通过 处 理 需 总 线 (如 图 9-1 所 示 )、LIO 总 线 (如 图 9-2 Aras) 或 ICH (如 图 9-3 
或 图 9-4 所 示 ) 与 系统 中 的 其 他 设备 进行 通信 。 在 过 去 ， 个 人 计算 机 采用 每 个 设备 均 有 其 专 
用 的 DCI 的 设计 。 即 使 是 最 基本 的 设备 ， 如 键盘 、 鼠 标 和 打印 机 ， 都 有 其 专用 的 DCI， 如 
图 9-1 所 示 ， 其 中 包含 键盘 和 鼠标 的 DCI。 

例如 ， 旧 式 标 准 中 ， 如 并 行 端口 (IEEE 1284 ) Al RS-232 (232 推荐 标准 )， 包 含 其 小 版 
本 DE-9， 其 仅 支 持 单 独 的 点 对 点 连接 来 连接 一 个 外 围 设备 ， 并 需要 一 个 专用 的 DCI。 这 表 
明 其 不 支持 “ 即 插 即 用 ”设备 接口 ， 这 增加 了 个 人 计算 机 的 成 本 ， 此 外 ， 其 每 次 安装 一 个 新 
的 设备 时 都 需要 重新 启动 计算 机 。 一 个 典型 的 系统 只 能 支持 有 限 数量 的 捅 覃 以 供 安装 新 设 
备 ， 这 也 给 定 了 个 人 计算 机 用 户 某 些 限制 。 今 天 ， 大 多 数 外 围 设 备 (但 并 不 是 所 有 的 ) 是 即 
插 即 用 的 。 | 

正如 早先 讨论 的 那样 , DCI 和 DC 都 使 用 IO 端口 。 端 口 采 用 三 态 缓冲 门 和 寄存 器 设计 ， 
每 个 寄存 器 通过 特定 的 地 址 来 确定 ， 其 访问 方式 和 存储 器 相似 。 独 立 寻 址 的 IO 或 端口 映射 
IO 和 存储 器 映射 |/O 是 两 种 常用 的 VO 端口 地 址 映射 模式 ， 如 图 9-9 所 示 。 

在 图 9-9a 中 ， 端 口 映 射 的 IO 要 求 两 个 独立 的 地 址 空间 ， 一 个 用 于 存储 器 (如 512B), 
另 一 个 用 于 相同 大 小 的 IO 端口 。 并 添加 一 条 额外 的 控制 总 线 信 号 ， 如 _m， 来 说 明 给 定 的 
地 址 是 存储 器 地 址 或 WO 端口 地 址 , 在 m = 0 时 是 存储 器 地 址 ， 在 _m = 1 时 是 IO 端口 
地 址 。 

另 一 方面 ， 存 储 器 映射 IO 要 求 将 一 个 地 址 空间 分 割 为 存储 器 和 IO 端口 两 部 分 ， 如 图 
9-9b 所 示 。 在 图 中 ， 一 个 512B 的 地 址 空间 被 划分 为 存储 器 地 址 和 IO 端口 地 址 。 控 制 信和 号 
(如 as、rd、wr 和 ack) 既 可 以 用 于 访问 存储 器 ， 也 可 以 用 于 访问 存储 器 映射 的 IO 端口 。 
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在 这 种 情况 下 ， 由 存储 器 控制 器 和 DCI 来 确定 一 个 地 址 是 在 存储 器 单元 的 地 址 范围 内 还 是 
在 IO 端口 地 址 范围 内 。 


存储 器 地址 |] 





ry 4 — pg | 十进制 数 | 二 进 制 数 ( (9 位 )| 8-bit Content. 
[of | I | 0 000000000 
1] 000000001 ' | 1| 000000001 
,2 000000010 ! | 2, 000000010 
| 3 000000011 | | | 3} 00000001 1 
a eevee pee eae aT 
i ee T011111 | ee ees | E eva yaaa E ”WR i 
a) PMIO 寻 址 ( 两 个 分 离 的 地 址 空间 ) b) MMIO 寻 址 ( 一 个 合并 的 地 址 空间 ) 


9-9 IO 端口 寻 址 方式 : a) 端口 映射 |/O， 一 个 512B 地 址 空间 用 于 存储 器 ， 另 512B 地 址 空间 用 
于 VO 端口 ; b) 存储 器 映射 /1O ， 一 个 单独 的 512B 地 址 空间 划分 为 存储 器 和 I/O 端口 两 部 分 


任何 计算 机 系统 均 可 实行 存储 器 映射 IO 寻 址 模式 。Intel 处 理 器 也 可 支持 端口 映射 IO 
寻 址 ， 其 包含 两 条 特殊 的 IO 指令 :“IN” 和 “OUT”。 一 般 情况 下 ， 所 有 的 精简 指令 集 计 
GPL (RISC) ARFER SHEA AREER VO 寻 址 模式 ， 这 使 其 拥有 直接 访问 存储 器 指令 来 访问 
IO 端口 的 优点 。 另 一 方面 ， 端 口 映 射 IO 寻 址 方式 拥有 可 分 配 任意 存储 器 地 址 空间 给 IO 
端口 的 优点 ; 然而 ， 这 些 年 来 ， 随 着 存储 器 地 址 空间 的 不 断 增 长 ， 这 种 优势 已 经 消失 至 尽 。 
例如 ， 现 代 计 算 机 系统 主 存储 器 空间 在 GB 级 ， 存 储 器 IO 端口 映射 方式 有 绝对 足够 的 空间 
来 访问 任意 多 的 IO 端口 。 


IO 端口 
图 9-10 说 明了 一 个 包含 一 个 输入 端口 和 一 个 输出 端口 的 存储 器 映射 IO 端口 的 简单 示 
例 。 端 口 指 的 是 用 于 在 数据 总 线 上 使 输入 数据 隔离 的 一 组 三 态 缓冲 器 和 一 个 用 于 保存 输出 数 


据 的 并 行 输入 输出 的 寄存 器 。 在 图 中 ， 并 行 输入 输出 的 寄存 器 也 被 称 为 缓冲 器 ， 其 由 正极 门 
栓 构 成 。 
地 址 总 线 (AB 


LC 


e 
地 址 译 码 器 





、 A A 
选择 其 他 输出 数据 
I/O 端 口 

b ) 输出 端口 


9-10 包含 一 个 输入 端口 和 一 个 输出 端口 的 I/O 端口 示意 图 ， 假 定 采用 存储 器 映射 VO 端口 寻 址 方式 


对 于 输入 端口 ， 一 个 读 周期 以 处 理 器 将 端口 地 址 放置 到 地 址 总 线 上 并 选中 _as (地 址 先 
通 ) 信号 为 开始 ， 如 图 9-11 中 t0 所 示 。 当 as 信号 被 处 理 器 选中 时 ， 这 表明 现在 位 于 地 址 
总 线 CAB) 上 的 地 址 是 合法 的 。_as = 0 将 使 能 图 9-10 中 的 地 址 译 码 器 ， 此 地 址 译 码 器 之 
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后 将 选中 地 址 总 线 上 目标 端口 地 址 对 应 的 sel 信号 。_rd fa SFE t2 AT AY 1-0 转换 将 使 能 三 态 
缓冲 器 ， 导 致 输入 数据 在 t3 时 放置 到 数据 总 线 上 。 处 理 器 将 接收 数据 并 在 14 时 解 使 能 _rd。 
在 人 时 ，as 变 为 1 并 且 sel=0， 读 周期 结束 。 


| 
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使 能 三 态 解 使 能 三 态 
缓冲 器 缓冲 器 


图 9-11 处 理 器 视角 的 一 个 存储 器 映射 1O 输入 端口 读 周期 示意 图 ， 也 要 求 一 个 ack 握手 信号 (未 显示 ) 


如 图 9-12 所 示 ， 一 个 输出 端口 的 写 周期 开始 部 分 与 输入 端口 的 读 周期 相似 。 处 理 器 将 
端口 地 址 放置 到 地 址 总 线 上 ， 并 选中 as 信号 。 当 sel = 1 时，_wr 信 号 的 1-0 转换 将 导致 
与 寄存 器 相连 接 的 与 门 输出 端的 0-1 转换 ， 如 图 9-10 所 示 。 这 将 导致 正极 并 行 加 载 寄存 器 
(由 正极 锁 存 器 构成 ) 在 tl 时 加 载 数 据 总 线 上 的 数据 。_wr 信和 号 的 0-1 转换 将 完成 写 操作 。 
X as 信和 号 在 t2 时 变 为 1， 并且 在 t3 时 sel = 0， 写 周期 结束 。 

采用 端口 映射 的 IO 端口 其 读 周 期 和 写 周 期 是 相似 的 ， 不 同 之 处 在 于 在 图 9-10 中 地 
址 译 码 器 还 需要 输入 控制 总 线 信号 m (之 前 已 经 说 明 )。 假 设 一 个 累加 器 ISA DH, H 
“LD” 和 “ST” 指 令 (之 前 在 第 8 章 中 讨论 ) 将 生成 m = 0 来 访问 存储 器 。 两 条 新 的 指令 ， 
例如 ,“IN” 和 “OUT”, 将 生成 _m = 1 来 访问 端口 映射 的 IO 端口 。 而 在 采用 存储 器 映射 
的 IO 端口 并 不 需要 m 信 号 ,“LD” 指 令 和 “ST” 指 令 既 可 以 访问 存储 器 ， 也 可 以 访问 
V/O 端口 。 

1. 可 配置 端口 

如 图 9-13 所 示 ， 一 个 可 配置 端口 也 包含 一 个 数据 方向 寄存 器 (DDR)， 其 用 于 配置 IO 
端口 中 的 每 一 位 为 1 位 的 输入 端口 或 1 位 的 输出 端口 。 图 9-14 说 明了 1 位 可 配置 IO 端口 
的 设计 细节 。 当 DDR.qo = 0 时， 其 通过 不 使 能 三 态 缓冲 器 1 配置 do 为 1 位 输入 端口 。 并 在 
一 个 读 周期 中 ， 三 态 缓冲 器 2 将 被 使 能 。 当 DDR.qo = 1 时 ， 其 通过 使 能 三 态 缓冲 器 1 配置 
do 为 1 位 输出 端口 。 三 态 缓冲 器 2 一 直 不 使 能 。 

例如 ， 当 DDR 中 的 内 容 为 0x0F 时 ， 其 配置 图 9-13 中 的 IO 端口 的 高 4 位 为 4 位 输入 
端口 ， 低 4 位 为 4 位 输出 端口 。DDR 中 的 内 容 可 被 读 取 并 可 被 动态 修改 ， 从 而 在 IO Fig 
设置 时 重新 配置 IO 端口 。 当 DDR 中 的 内 容 被 读 取 时 ， 三 态 缓冲 器 3 将 被 使 用 。 
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输出 端口 从 数据 总 线 上 加 载 数据 
图 9-12 处理 器 视角 的 一 个 存储 器 映射 1O 输入 端口 写 周期 示意 图 ， 也 要 求 一 个 ack 握手 信号 (未 显示 ) 






缓冲 器 和 逻辑 门 电路 


输入 /输出 数据 
图 9-13 8 位 可 配置 端口 框图 [3] 


1-bit bus 






| 1 配置 为 输出 端口 
” 必 0 配 置 为 输入 端口 


输入 /输出 位 
9-14 1 位 可 配置 |/O 端口 部 分 保留 的 电路 图 
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然而 ， 它 也 可 能 包含 ， 例 如 ， 一 个 位 于 微 控制 器 中 的 “命令 ”端口 ， 这 个 端口 可 用 来 通 
过 有 限 的 配置 选项 来 配置 一 系列 IO 端口 ， 足 以 支持 多 个 DCI 和 DC。 

图 9-15 显示 了 一 个 包含 3 个 可 配置 IO 端口 ， 即 端口 0、 端 口 3 和 端口 4， 以 及 两 个 多 
种 目的 的 IO 端口 《端口 1 和 端口 2 ) 的 示例 。 端 口 1 和 端口 2 不 仅仅 是 可 配置 的 ， 其 还 有 
多 种 用 途 。 在 一 个 应 用 程序 中 ， 与 端口 1 和 端口 2 相关 的 管 脚 可 能 用 于 配置 IO 端口， 在 另 
一 个 程序 中 ， 同 样 的 管 脚 也 可 用 于 数据 信和 号 或 控制 信号 。 

作为 一 个 租 入 式 系统 ， 一 个 微 控 制 器 包括 CPU、RAM、ROM、 一 系列 IO 端口 、 一 个 
或 多 个 定时 器 模块 、 一 个 中 断 控制 器 以 及 一 个 或 多 个 数据 通信 模块 等 。 当 微 控制 器 周期 性 地 
执行 特定 的 任务 时 ， 将 需要 定时 器 模块 。 中 断 控 制 器 将 在 后 文 讨 论 ， 当 有 一 个 外 部 事件 时 ， 
中 断 控制 器 用 于 中 断 微 控 制 锅 。 | 
” 电 擦 除 可 编程 只 读 存储 器 (EEPROM) 和 flash 存储 器 (组 织 成 存储 器 ) AR AIRE 
中 的 固件 和 软件 使 用 。EEPROM 是 用 于 加 载 引 导 装 载 程序 ， 而 flash 存储 器 是 用 于 存储 DC 
或 DCI 中 的 固件 ， 其 可 在 系统 建立 时 被 系统 更 新 。RAM 是 用 于 在 系统 执行 过 程 中 存储 程序 
数据 并 /或 存储 配置 数据 。 一 个 定时 器 模块 包含 一 个 计数 器， 定时 器 用 于 调度 事件 。 例 如 ， 
一 个 使 用 12K 模式 的 计数 器 并 使 用 12MHz 时 钟 的 定时 器 模块 可 用 于 监测 键盘 等 硬件 ， 每 
Ims 监测 一 次 键盘 是 否 有 键 按 下 ( 12 K cycles / 12 M cycles/s * 1000ms/s = Ims), 


Rx Tx 





定时 器 0 中 断 端口 | | 端口 | | 端口 | | 端口 | | 端口 USB 
定时 器 1 控制 器 0 1 2 3 4 
INTO INTI E 





端口 1 的 管 脚 可 端口 2 的 管 脚 可 
选择 的 用 于 MISO、 ”选择 的 用 子 Rx、Tx、 
MOSI、SCK、SS 等 INTO、INT1 等 

( 为 显示 全 部 ) 


9-15 一 个 微 控 制 器 结构 : 连接 到 端口 1 和 端口 2 的 管 脚 有 两 种 用 途 [3]， 未 显示 所 有 模块 390 


在 图 中 ， 微 控制 器 也 包含 3 了 个 不 同 的 数据 通信 模块 来 支持 多 种 设计 程序 。 其 包含 一 个 
通用 异步 收发 器 (UART)、 一 个 串 行 外 围 接口 (SPI) 和 一 个 USB 端口 ， 所 有 的 模块 都 在 一 
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个 独立 的 芯片 中 。UART、SPI、USB 是 三 种 不 同 的 用 于 IO 设备 的 通信 协议 。 

总 体 而 言 ， 一 个 微 控制 器 中 并 不 是 所 有 的 资源 都 将 用 于 一 个 独立 的 应 用 程序 ， 因 此 某 些 
模块 可 能 共享 同一 个 IO 管 脚 。 例 如 ， 在 图 中 ， 端 口 1 和 端口 2 的 管 脚 也 可 用 作 UART 模块 
中 接收 (Rx) 和 发 送 (Tx) 信和 号; 也 可 用 作 SPI 模块 中 的 主 输入 从 输出 ( MISO)、 主 输出 从 
输入 (MOSI)、 同 步 时 钟 (SCK) 和 从 设备 选择 (SS) 信和 号 或 者 中 断 控制 器 中 的 中 断 OCINTO ) 
和 中 断 1 ONTI ) 信和 号。 


微 控 制 器 


8 x 20%% AE RF 






小 键盘 锁定 LED 
3 ”大写 按键 锁定 LED 
屏幕 滚动 锁定 LED 


键盘 设备 控制 器 ( DC ) 
图 9-16 ”一 个 包含 按键 矩阵 的 键盘 设备 控制 器 ， 未 显示 所 有 的 微 控 制 器 模块 


图 9-16 说 明了 一 个 包含 按键 矩阵 的 键盘 设备 控制 器 。 德 阵 中 每 一 行 和 列 的 交叉 点 可 确 
定 一 个 按键 。 设 备 控制 器 通过 激活 20 个 列 信和 号 来 扫描 和 矩阵， 例如 ， 通 过 使 用 端口 0、1、3 
每 次 设置 一 条 信和 号 线 为 0， 如 图 所 示 ， 通 过 端口 2 读 取 8 位 行 信 号 。 当 一 个 按键 按 下 时 ， 将 
连接 一 条 列 信和 号 线 和 行 信 号 线 ， 只 使 得 其 对 应 连接 的 行 信号 和 列 信号 为 0， 其 他 行 信号 依旧 
为 1。 当 一 个 行 信 号 返回 为 1 时 ， 表 示 该 按键 被 释放 。 当 某 个 按键 被 按 下 并 建立 联通 时 ，DC 
将 生成 一 个 通 码 (make code)， 当 一 个 按键 被 释放 ， 联 通关 系 解除 时 ，DC 将 生成 一 个 断 码 
(break code ) 。 

键盘 扫描 码 有 3 种 标准 ， 为 扫描 码 集 合 1、 集 合 2 和 集合 3。 例 如 ， 当 使 用 扫描 码 
集合 2 时 ， 数 据 顺 序 为 0xE012、0xE01C、0xE0F01C 和 0xE0F012 表明 大 写字 母 A。 代 
码 0xE012 是 shift 键 的 通 码 ，0xE01C 是 a 键 的 通 码 ，0xE0F01C 是 a 键 的 断 码 ， 最 后 
0xE0F012 是 shift 键 的 断 码 。 一 个 按键 也 可 以 被 保留 从 而 使 得 其 通 码 可 频繁 使 用 。 键 盘 DC 
通过 按键 重复 率 来 初始 化 ， 按 键 重复 率 是 通过 计算 一 个 键 被 按 下 时 生成 的 通 码 产 生 的 频率 来 
决定 的 。 

所 有 的 按键 ， 包 括 CTRL、ALT 等 ， 其 通 码 和 断 码 是 通过 DCI 来 传输 并 存储 到 存储 器 
中 。 这 个 代码 之 后 将 通过 基本 输入 /输出 系统 ( BIOS) 来 转换 为 一 个 ASCII 码 ， 以 供 一 个 应 
用 程序 来 使 用 。 

键盘 DC 也 通过 键盘 DCI 来 接收 指令 ， 例 如，DC 在 初始 化 过 程 中 接收 一 个 按键 的 重复 
率 ， 或 者 当 CAPS-LOCK 键 被 按 下 时 ， 如 果 有 ， 接 收 一 个 点 亮 LED 灯 的 指令 。 

2. 包含 状态 位 的 端口 

图 9-10 中 的 VO 端口 是 一 个 不 包含 状态 位 的 IO 端口 示例 。 我 们 没有 方式 来 确定 什么 
时 候 输 入 数据 是 可 使 用 的 ， 什 么 时 候 输出 数据 可 以 被 读 取 。 无 状态 位 的 IO 端口 用 于 直接 控 
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制 硬件 设备 ， 如 图 9-16 所 示 ， 用 于 控制 键盘 和 矩阵 的 设备 控制 器 采用 以 上 设计 。 

另 一 方面 ， 当 需要 表明 输入 数据 何 时 可 被 CPU 读 取 或 输出 数据 何 时 可 被 其 他 设备 读 取 
时 ， 要 求 IO 端口 采用 含有 状态 位 的 DCI。 例 如 ， 当 与 一 个 打印 机 DCI 通信 时 ， 下 一 个 需要 
发 送 给 打印 机 打印 的 数据 何 时 发 送 给 打印 机 打印 由 已 经 接收 到 的 数据 的 时 间 来 决定 。 当 DCI 
已 经 发 送 前 一 个 数据 给 打印 机 DC， 并 且 DCI 表明 其 已 经 准备 好 接收 下 一 个 打印 数据 时 ， 下 
一 个 打印 数据 可 以 被 发 送 给 打印 机 DCI。 

类 似 的 例子 还 有 ， 比 如 ， 在 键盘 DCI 中 说 明 从 键盘 DC 中 接收 到 的 新 的 扫描 码 是 可 使 
HK, RE DMA 控制 器 中 说 明 在 主 存储 器 和 磁盘 驱动 器 DCI 或 网 络 适配器 之 间 的 数据 传输 
已 经 完成 。 

一 个 包含 状态 位 的 IO 端口 样 示 程 序 将 在 下 一 节 讨 论 ， 但 是 ， 首 先 ， 这 里 有 三 种 不 同 的 
从 /到 DCI 中 传输 数据 的 机 制 ， 其 中 一 个 是 DMA 传输 方式 ， 这 个 在 上 文 简略 讨论 过 。 


9.5 数据 传输 机 制 


DCI 之 间 的 数据 通信 可 直接 由 处 理 器 或 DMA 控制 器 来 完成 。 此 外 ， 当 处 理 器 直接 与 
DCI 通信 从 而 传输 数据 时 ， 数 据 事实 上 是 存储 在 主 存储 器 中 的 。 处 理 器 先 从 DCI 接收 数据 ， 
之 后 将 数据 写 人 存储 器 中 ; 或 者 处 理 器 先 从 存储 器 中 读 取 数据 ， 之 后 再 将 数据 输出 到 DCI 
中 。 中 断 驱动 和 程序 控制 |/O 是 两 种 处 理 器 直接 参与 的 数据 传输 机 制 。 


9.5.1 ”中断 驱 动 传输 


中 断 驱动 传输 也 可 称 为 中 断 驱动 MO ， 当 设备 产生 一 个 中 断 时 传输 数据 。 当 前 正在 运行 
的 程序 将 停止 ， 处 理 器 转 而 处 理 一 个 中 断 处 理 程序 ， 中 断 处 理 程序 也 被 称 为 中 断 服务 程序 。 
当中 断 处 理 程序 执行 时 ， 将 在 设备 和 主 存储 器 之 间 传 输 数 据 。 因 为 传输 数据 过 程 中 ， 处 理 需 
正在 执行 中 断 处 理 程序 ， 它 直接 参与 了 设备 和 存储 器 之 间 的 数据 传输 过 程 。 

中 断 结 构 (将 在 9.6 节 介 绍 ) 通过 分 配给 每 一 个 设备 一 个 中 断 优 先 级 以 防止 出 现 多 个 设 
备 同时 请 求 中 断 处 理 器 的 情况 。 某 些 设备 (例如 键盘 ) 相对 于 磁盘 驱动 器 而 言 具 有 较 低 的 中 
断 优先 级 。 而 当 系 统 中 有 太 多 的 设备 时 ， 对 某 些 设备 的 服务 可 能 会 延迟 。 

为 了 说 明 中 断 驱动 传输 机 制 和 包含 状态 位 的 IO 端口 的 应 用 程序 ， 思 考 图 9-17 中 一 个 
传统 键盘 的 DCI。 在 图 中 ,传统 键盘 的 DCI 拥有 两 个 IO 端口 ， 标 记 为 端口 0 和 端口 1。 然 
而 ， 因 为 处 理 器 和 DCI 都 将 访问 这 些 端口 ， 一 个 供 CPU 读 入 数据 的 输入 端口 也 可 用 作 DCI 
的 输出 端口 。 相 似 的 ， 一 个 供 处 理 器 写 数 据 的 输出 端口 也 可 用 作 DCI 的 输入 端口 。 两 个 寄 
存 器 中 的 内 容 和 端口 地 址 相关 ， 一 个 作为 输入 端口 ， 另 一 个 作为 输出 端口 。 

在 图 中 ， 寄 存 器 被 标记 为 “扫描 码 ”“ “数据 *” “状态 ”"、“ 命 令 ”。 表 9-3 分 别 从 处 理 
器 视角 和 DCI 视角 说 明 各 端口 为 输入 端口 或 输出 端口 。 图 中 的 端口 是 以 键盘 DCI 视角 来 标 
记 的 。 

处 理 器 可 以 在 任意 时 间 读 取 “ 状 态 ” 端 口 ， 其 包含 了 剩余 端口 的 状态 位 。 输 入 缓冲 区 满 
(IBF) 状态 位 (或 高 电 平 使 能 信号 ibf) 和 输出 缓冲 区 满 ( OBF) 状态 位 (或 低 电 平 使 能 信号 
_obf) 表明 了 其 他 三 个 端口 的 状态 。 当 _obf = 0 ( 满 ) 时 ， 这 表明 DCI 已 经 加 载 一 个 扫描 码 
到 “扫描 码 ” 寄 存 器 中 ， 供 处 理 器 访问 。 当 ibf = 1 ( 满 ) 时 ， 这 表明 从 处 理 器 发 送 来 的 数据 
已 存 人 “数据 ”寄存 器 或 “命令 ”寄存 器 中 ， 供 键盘 DCI 访问 。 


INTR — 1 if inte=1and_obf=0 


INTR + 0 if 1-0 transition on _rd 配置 字 节 


OBF <1 if 0-1 transition on _rd OBF 
INTR | | INT 
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键盘 设备 控制 器 接口 (DCI ) 
spessi 表示 不 是 直接 连接 


9-17 通过 键盘 DCI (设备 控制 器 接口 ) 来 阐述 MO 端口 访问 和 中 断 驱动 传输 ， 未 显示 所 有 的 信和 号 
和 数据 通路 模块 ， 端 口 是 以 DCI 视角 进行 标记 


表 9-3 ”从 处 理 器 视角 和 设备 控制 器 接口 视角 看 图 9-17 中 的 端口 


端口 名 从 键盘 DCI 视角 
扫描 码 输出 端口 
数据 输入 端口 
状态 输出 端口 
命令 输入 端口 


一 个 键盘 驱动 服务 程序 必须 先 配置 DCI 为 中 断 驱 动 传输 或 程序 化 数据 传输 。 由 处 理 器 
B94) 执行 的 驱动 服务 程序 将 写 一 个 配置 命令 到 “命令 ”寄存 器 中 来 初始 化 DCI。DCI 接收 该 命 
令 后 ， 将 开始 执行 配置 程序 。 驱 动 服务 程序 之 后 将 写 配置 数据 到 DCI 的 “数据 ”寄存 器 中 。 
DCI 的 配置 程序 将 读 取 该 数据 并 存储 到 DCI 中 的 “配置 缓冲 区 ”中 。 
例如 ， 为 了 说 明 CPU 如 何 访问 IO 端口 ， 我 们 通过 下 面 用 于 检测 IBF 位 的 程序 代码 来 
说 明 ， 当 IBF 位 为 0 (如 ibf = 0)， 表 示 配 置 命令 已 存储 到 “命令 ”寄存 器 中 。 该 程序 使 用 
累加 器 ISA 进行 编写 ， 累 加 髓 ISA 已 在 第 8 章 中 说 明 。 
键盘 驱动 程序 先 检测 “状态 ”端口 ， 再 输出 命令 到 “命令 ”端口 : 


LOOP: LD (Port_1) //input keyboard status 
AND 2 //select status bit 1, ibf; bit 0 is obf. 
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CMP 2 //is ibf = 1? 1 indicates full. 

JEQ LOOP //wait for an empty input buffer 
LD. //get, configuration command 

OUT (Port_1) //output to "Command" port, assuming 


//port-mapped I/O port 


对 于 中 断 驱动 传输 程序 ， 配 置 数 据 必 须 配 置 “ 配 置 缓冲 区 ”中 的 OBF 中 断 使 能 位 
(INTE)。 当 INTE 使 能 时 ， 中 断 请 求 位 (INTR) 将 用 于 触发 中 断 。 这 就 是 说 ， 对 于 一 个 
OBF 中 断 ， 当 表示 “扫描 码 ” 端 口 为 满 的 _obf = 0， 并 且 表 明 中 断 驱 动 数据 传输 的 inte = 1 
AY, intr 变 为 1 (触发 中 断 )。 

HK 9-16 中 的 一 个 键 按 下 时 ， 键 盘 DC 发 送 一 个 扫描 码 到 键盘 DCI， 这 将 写 人 扫描 码 
到 DCI 中 的 “扫描 码 ” 寄 存 器 ， 并 设置 OBF 位 (_obf = 0)。 当 inte = 1 时， 这 将 触发 中 断 
请 求 信号 intr， 使 intr 变 为 1。intr = 1 将 触发 一 个 处 理 器 中 断 服 务 程序 。 中 断 服务 程序 将 读 
取 “ 扫 描 码 ”寄存 器 中 的 扫描 码 ， 并 存储 到 主 存储 器 中 。 因 为 这 是 一 个 中 断 驱动 传输 ， 中 断 
驱动 程序 不 需要 轮 询 OBF 状态 位 ; intr = 1 说 明了 “扫描 码 ” 缓 冲 区 为 满 。 当 一 个 输入 端口 
的 读 周 期 开始 时 ( 见 图 9-11 )，_rd 的 1-0 转换 将 清除 INTR 位 ， 使 得 intr = 0。 当 处 理 器 读 取 
“扫描 码 ” 缓 冲 区 中 的 扫描 码 时 ，_rd 的 0-1 转换 将 清除 OBF fi, HR obf=1, RHAR 
冲 区 现在 为 空 ， 此 时 ，DCI 可 写 男 一 个 扫描 码 到 “扫描 码 ” 缓 冲 区 中 。 


9.5.2 程序 控制 传输 


程序 控制 传输 ， 也 被 称 为 程序 控制 1O ， 并 不 是 中 断 驱动 的 ; 相反 ， 处 理 器 通过 一 个 定 
时 器 触发 ， 周 期 性 地 执行 一 个 轮 询 程 序 ， 通 过 检测 各 个 DCI 中 的 IO 端口 状态 位 来 确定 哪 
一 个 设备 需要 服务 。 轮 询 有 一 定 的 优先 级 次 序 。 下 面 的 程序 说 明了 一 个 程序 化 传输 ， 其 检测 
了 每 个 设备 的 OBF 和 IBF 标志 位 。 程 序 可 在 ibf = 1 (输入 缓冲 区 为 满 ) 时 从 端口 输入 数据 ， 
或 在 _obf = 1 (输出 缓冲 区 为 空 ) 时 输出 数据 到 端口 。 该 程序 代码 是 用 于 图 9-17 中 的 键盘 端 
口 0， 其 他 设备 的 程序 代码 部 分 标记 为 DCI_X、DCI_Y 等 。 


实现 程序 控制 IO 的 轮 询 程序 : 
POLL: = //start polling programmed I/O DCIs 
DCI KB: LD (Port_1) //input keyboard status 
AND 1 //select. status bit 0, _obf; 
//bit 1 is ibf 
CMP 0 //is obf = 0?0 indicates full. 
JNE KIBF //if output buffer not full, check 
//keyboard IBF 
LD (Port_0) //else, output buffer full, read 
//"Scancode” port, assuming 
//memory-mapped I/O port 
ST x //store the scan code in memory 
KIBF: LD (Port 1) //check keyboard IBF flag 
AND 2 
CMP 2 
JEQ DCI X //if input buffer not empty, check 


//the DCI of another device X 
us //else, input buffer empty, read data 
//from memory and write to “Data” 
//port 
DCI X: 
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DCI Y: 


在 这 种 情况 下 ， 处 理 器 不 仅 参 与 到 设备 和 存储 器 之 间 的 实际 数据 传输 ， 也 直接 涉及 每 个 
设备 的 周期 性 的 轮 询 。 只 有 当 系 统 中 有 大 量 设 备 时 ， 程序 化 传输 才 有 和 较 高 的 效率 。 例 如 ， 当 
使 用 计算 机 来 监控 一 个 工厂 中 的 多 个 传感器 时 ， 如 果 使 用 中 断 驱 动 IO 机 制 ， 这 将 导致 处 理 
器 经 常 性 地 切换 到 中 断 处 理 程序 ， 会 浪费 可 用 的 处 理 器 时 间 。 然 而 ， 可 以 通过 一 个 主 控制 需 
接口 ， 如 USB 主 控制 器 接口 来 执行 程序 化 传输 ， 主 控制 器 接口 在 需要 服务 时 会 中 断 处 理 船 。 

例如 ， 思 考 一 个 现代 个 人 计算 机 系统 ， 其 包含 多 种 类 型 的 USB 外围 设 备 ， 例 如 数字 扬 
声 器 、 数 字 电 话 、 数 字 照 相机 、 数 字 传 真 机 、 可 移动 flash 存储 器 等 ， 如 图 9-18 所 示 。 所 列 
的 USB 接 人 设备 可 每 天 变化 。 一 般 的 ， 一 个 USB 主 控制 器 接口 可 以 轮 询 127 个 USB 设备 。 
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flash 存 储 器 加 





USBRREK 
图 9-18 连接 多 个 USB 设备 的 现代 个 人 计算 机 [4] 
USB 主 控制 器 通过 包 来 和 各 个 设备 进行 通信 ， 包 是 多 个 数据 域 的 集合 ， 每 个 数据 域 包 
含 一 定量 的 信息 。 图 9-19 说 明了 图 9-18 中 的 USB 设备 与 一 个 包含 一 个 根 集线器 和 三 个 端 
口 的 USB 主 控制 器 接口 的 连接 方式 。 如 上 所 述 ， 打 印 机 中 的 USB 集线器 可 用 于 连接 USB 
扬声器 和 USB 传真 机 ， 在 键盘 中 的 USB 集线器 可 用 于 连接 flash 和 鼠标 。 
一 个 MO 总 线 


HCI 


USSR SREE 
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R 9-4 用 于 USB 设备 的 4 种 包 类 型 
包 类 型 Hi 述 
这 种 包 是 用 于 与 如 键盘 和 鼠标 等 需要 中 断 驱动 传输 的 外 围 设备 进行 通信 。 取 代 癌 处 理 器 的 直接 中 


中 断 | 断 ， 设 备 将 发 送 一 个 中 断 包 给 它 的 HCl 

ay | 这 种 包 是 用 于 与 如 数字 音频 、 视 频 设备 等 需要 与 系统 实时 通信 的 外 围 设 备 进行 通信 。 在 这 种 设备 
中 ， 数 据 传输 速率 比 数据 精度 更 重要 

aa | 这 种 包 是 用 于 与 如 打印 机 等 需要 传输 批量 数据 的 外 围 设备 进行 通信 。 在 这 种 情况 下 ， 数 据 靖 度 比 


数据 传输 速率 更 重要 
控制 这 种 包 是 用 来 监控 USB 集线器 并 设置 为 设备 连接 或 断 开 


所 有 连接 到 系统 的 USB 设备 请 求 的 服务 按 其 传输 包 的 优先 级 分 为 4 类 ， 如 表 9-4 所 示 。 
发 送 给 各 个 USB 设备 的 包 会 进一步 封装 成 帧 ， 从 USB 主 控制 器 接口 发 出 ， 依 次 通过 USB 
根 集线器 、USB 集线器 和 USB 端口 、USB 电费 发 送 到 各 个 USB 设备 。 反 之 亦 然 ， 通 过 
USB 集线器 和 USB 根 集线器 从 USB 电缆 和 USB 端口 发 送 到 USB EPH AEH o 

如 果 帧 通信 的 频率 足够 高 (每 几 毫 秒 )， 其 可 以 捕获 到 如 键盘 和 鼠标 等 请 求 中 断 驱动 IO 
的 设备 对 即时 性 服务 的 延迟 中 断 请 求 ， 也 可 以 传输 数据 到 / 从 诸如 数字 扬声器 、 数 字 电 话 等 
需要 实时 数据 通信 的 外 围 设备 。 一 个 bulk 包 是 用 于 与 慢 速 设 备 如 打印 机 进行 通信 ， 一 个 控 
制 包 是 用 于 监测 USB 设备 来 确定 设备 是 否 连接 。 

当 一 个 主 控制 器 同时 与 多 个 设备 进行 通信 时 ， 与 各 个 设备 进行 通信 的 基本 操作 还 是 相 
同 的 。 每 一 个 由 主 控制 器 发 出 到 各 个 设备 的 包 必 须 包 含 IO 端口 地 址 和 服务 类 型 ， 服 务 类 型 
为 写 端 口 和 读 端 口 。 对 于 一 个 读 端 口 的 包 ， 设 备 接收 到 该 包 后 ， 会 发 送 一 个 包含 设备 数据 的 
(如 扫描 码 ) 反馈 包 给 主 控制 器 ， 主 控制 器 继而 存储 该 数据 到 主 存储 器 中 。 而 对 于 一 个 写 端 
口 包 ， 主 控制 器 必须 先 访问 主 存储 器 ， 并 从 中 获取 设备 数据 ， 再 发 送 该 数据 到 设备 中 。 

因为 在 主 控制 器 和 设备 之 间 通 信 的 数据 大 小 是 按 字 节 数量 进行 排序 的 ， 包 括 主 控制 着 和 
每 个 设备 的 DCI 在 内 都 包含 一 定 的 存储 器 作为 缓冲 区 来 临时 存储 接收 到 的 或 要 发 送 的 数据 。 
关于 USB 主 控制 器 接口 的 更 详细 摘 述 将 在 9.7 节 介绍 。 


9.5.3 DMA 传输 


中 断 驱 动 传输 和 程序 化 传输 在 设备 和 存储 器 之 间 的 数据 传输 在 数据 量 较 小 时 ( 几 字 节 ) 
效率 较 高 。 而 对 于 如 磁盘 驱动 器 等 需要 传输 大 量 (如 4KB) 数据 到 / 从 存储 器 的 设备 ， 采 用 
不 需要 处 理 器 参与 到 实际 数据 传输 过 程 的 DMA 会 更 有 效 。 为 了 更 好 地 说 明 DMA 传输 ， 请 
参考 图 9-20 的 简单 系统 。 

包括 处 理 器 和 DMA 控制 器 在 内 都 需要 访问 存储 器 ， 一 般 情 况 下 ， 需 要 一 个 被 称 为 仲裁 
器 的 仲裁 模块 来 决定 哪个 设备 访问 共享 的 总 线 。 然 而 ， 在 一 个 如 图 9-20 所 示 的 简单 系统 中 ， 
处 理 器 也 被 用 作 仲 裁 模 块 。 下 面 的 步骤 说 明了 一 个 DMA 传输 过 程 : 

1 ) 操作 系统 使 用 处 理 器 来 写 DMA 控制 器 和 DCI 的 IO 端口 从 而 初始 化 DMA 传输 。 
处 理 器 (通过 设备 驱动 ) 向 存储 器 地 址 寄存 器 (MAR) 写 人 传输 数据 的 存储 器 起 始 地 址 ， 并 
向 字 节 计数 寄存 器 (BCR) 中 写 人 要 传输 的 数据 字 节 数 。 处 理 器 也 向 配置 寄存 器 (CR) 端口 
中 写 人 表明 数据 传输 方向 (从 / 到 存储 器 ) A DMA 传输 类 型 DMA 传输 类 型 有 连续 的 ， 例 
如 当 启 动 一 个 计算 机 时 ， 或 不 连续 的 ， 例 如 在 系统 正常 运转 过 程 中 ， 在 DMA 传输 数据 时 处 
理 器 需要 使 用 总 线 。 处 理 器 也 会 写 数据 到 例如 磁盘 DCI 等 的 IO 端口 来 配置 磁盘 进行 一 个 读 
或 写 操作 。 一 旦 两 个 控制 器 都 已 经 设置 好 ， 处 理 器 将 通过 配置 磁盘 DCI 中 的 “ start” 位 来 
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2) 磁盘 DCI 通过 与 控制 磁盘 硬件 的 磁盘 DC 和 DMA 控制 器 进行 通信 从 而 完成 从 /到 存 
储 器 的 数据 传输 。 假 定 DMA 数据 传输 方向 为 从 设备 到 存储 器 ，DCI 首先 存储 设备 数据 到 它 内 
部 存储 器 (参见 例 9-1 中 Samsung 磁盘 驱动 器 )， 接 着 选中 DMA 请 求 信 号 (reqoma) 请 求 一 次 
DMA 传输 。 继 而 DMA 控制 器 将 选中 总 线 请 求 信 号 (br) 请 求 处 理 器 释放 总 线 。 处 理 器 一 旦 
完成 当前 的 总 线 周期 (如 果 有 )， 将 释放 总 线 并 选中 总 线 允 许 信 号 (bg)， 总 线 允 许 信 和 号 用 于 允 
iF DMA 控制 器 使 用 总 线 。 当 处 理 器 关闭 所 有 与 总 线 相连 的 三 态 缓 冲 器 时 ， 总 线 被 释放 。 一 旦 
DMA 控制 器 接收 到 选中 信号 bg， 其 变 为 总 线 主 控 并 可 以 初始 化 存储 器 写 周 期 。 一 个 DMA 读 
周期 执行 过 程 与 之 相似 ， 不 同 之 处 在 于 数据 从 存储 器 传送 到 DCI， 然 后 从 DCI 传送 到 DC. 

3) 作为 一 个 总 线 主 控 ，DMA 控制 器 使 用 MAR 中 的 内 容 作 为 下 一 个 存储 器 地 址 来 开始 
一 个 存储 器 写 周 期 。 它 也 为 DCI 选中 DMA 确认 信号 (ackpwA) 使 之 可 放置 数据 到 数据 总 线 
上 。 当 进行 一 次 总 线 传输 后 ，MAR 将 增加 ,而 BCR 将 减少 。 对 于 一 个 存储 器 读 周 期 ， 当 存 
储 器 数据 放置 到 总 线 上 时 (如 图 9-7 )，ackpwA 将 选中 ， 表 示 其 准备 好 传输 数据 到 磁盘 DCI. 

4) —B DMA 控制 器 完成 一 次 传输 ， 它 将 做 以 下 两 件 事 之 一 : 当 传输 类 型 为 连续 时 ， 
它 将 传输 下 一 个 数据 项 (重复 步骤 3 )， 当 传输 类 型 为 不 连续 时 ， 它 将 释放 总 线 ，DMA 控制 
器 解 使 能 br 信号 ， 总 线 被 释放 。 另 一 个 DMA 传输 可 以 从 第 2 ) 步 开 始 ， 一旦 所 有 的 数据 传 
输 完毕 ，BCR 484 0, DMA 控制 器 将 中 断 处 理 器 ， 告 知 本 次 DMA 传输 已 完毕 ， 若 当前 还 
需要 男 一 次 DMA 传输 ， 处 理 器 可 对 其 初始 化 。 

一 个 现代 DMA 控制 器 ， 然 而 ， 可 以 通过 实现 多 个 DMA 通道 来 给 多 个 设备 提供 服务 ， 每 
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个 DMA 通道 配 有 可 配置 的 IO 端口 从 而 来 服务 不 同 的 设备 。 一 个 现代 的 DMA 控制 器 也 可 以 
包含 端口 使 其 与 处 理 器 的 通信 最 小 化 ， 从 而 提升 性 能 。 例 如 ， 处 理 器 通过 在 存储 器 中 生成 一 
个 DMA 传输 表 (或 链表 ) 并 传输 该 表 的 地 址 给 DMA 控制 器 ， 从 而 在 每 次 数据 传输 时 不 需要 处 
理 器 来 初始 化 DMA。 表 中 每 一 项 都 包含 了 初始 化 一 个 独立 的 DMA 传输 的 必要 信息 。 当 一 次 
DMA 传输 完成 时 ，DMA 控制 器 将 自动 获取 表 中 下 一 条 信息 从 而 在 不 中 断 处 理 器 的 情况 下 初始 
化 下 一 次 DMA 传输 。DMA 控制 器 只 会 在 完成 整个 表 项 的 数据 传输 后 才 会 癌 处 理 器 发 出 中 断 。 

对 于 某 些 现代 DMA 控制 器 ， 处 理 器 也 可 以 配置 DMA 控制 器 使 其 每 当 完成 数 次 DMA 
传输 时 向 处 理 器 发 出 中 断 。 在 这 种 情况 下 ， 处 理 器 可 以 检查 DMA 的 状态 并 更 新 传输 表 ， 例 
如 ， 如 果 需 要 ， 可 向 该 表 添 加 更 多 的 DMA 传输 。 

当 一 个 现代 多 通道 DMA 控制 器 被 用 于 在 两 个 存储 器 单元 间 传 输 数据 时 《如 存储 句 - 存 
储 器 DMA) 也 需要 以 不 同 的 方式 运作 。 从 一 个 单元 的 存储 右 读 周期 后 可 能 紧 跟 着 一 个 癌 为 一 
个 存储 器 单元 的 存储 器 写 周期 。 最 后 ， 每 个 设备 也 可 以 包含 其 专用 的 DMA 控制 器 来 代替 共 
享 的 多 通道 DMA 控制 器 。 在 这 种 情况 下 ， 多 个 DMA 控制 器 将 通过 竞争 来 与 主 存储 器 通信 。 

如 我 们 将 在 第 9.8 节 看 到 的 那样 ， 一 个 USB 主 控制 器 接口 包含 两 个 DMA 控制 器 。 主 
控制 器 使 用 一 个 DMA 控制 器 来 完成 主 接口 和 主 存储 器 之 间 的 数据 传输 ， 使 用 另 一 个 控制 希 
来 完成 主 接口 和 其 他 连接 的 设备 的 数据 传输 。 


9.6 ”中断 


典型 的 ， 中 断 分 为 硬件 中 断 和 软件 中 断 ， 硬 件 中 断 是 由 内 部 的 或 外 部 的 硬件 模块 回 处 理 
器 发 出 的 中 断 ， 软 件 中 断 是 通过 执行 一 条 特殊 的 指令 ， 如 “INT”, 来 调用 一 个 系统 级 的 程 
序 。 某 些 内 部 硬件 中 断 被 称 为 同步 中 断 、 异 常 或 陷阱 ， 这 些 中 断 的 产生 是 由 发 生 在 CPU 数 
据 通路 内 的 一 些 诸如 算术 溢出 、 除 以 零 、 非 法 操作 码 等 错误 造成 的 。 因 为 这 些 中 断 是 指令 相 
关 的 ， 所 以 被 称 为 陷阱 。 如 果 一 个 程序 执行 结果 异常 ， 例 如 ， 在 一 个 特殊 的 算术 指令 一 一 如 
在 存储 器 地 址 X 的 “ADD” 指 令 一 一 有 算术 溢出 ,无论 程 序 执行 多 少 次 都 将 在 执行 该 指令 
时 游 出 (假定 算术 溢出 的 中 断 是 启用 的 并 且 程 序 的 输入 是 相同 的 )。 

然而 ， 其 他 的 内 部 硬件 中 断 可 能 是 不 同步 的 。 例 如 ， 考 虑 一 个 采用 多 道 程序 设计 的 执行 环 
境 ， 其 中 程序 经 常 因为 太 大 而 无 法 填充 到 主 存储 器 中 。 在 执行 一 个 程序 时 目标 指令 或 数据 并 不 在 
主 存储 器 中 时 ， 将 导致 一 个 中 断 ， 一 般 被 称 为 缺 页 中 断 。 在 程序 可 被 唤醒 之 前 ， 需 要 使 用 一 个 
DMA 来 从 磁盘 驱动 器 传输 所 需求 的 程序 代码 或 数据 页 (如 4KB) 到 主 存 储 器 中 。 随 着 页 在 不 同 的 
程序 中 移 人 移出 存储 器 ， 发 生 缺 页 中 断 的 时 间 可 能 不 同步 。 缺 页 中 断 将 在 第 10 章 中 进一步 讨论 。 

[ 在 一 个 采用 多 道 程序 设计 的 执行 环境 中 ， 任 何 种 类 的 中 断 都 将 停止 当前 运行 程序 〈 被 
PAVE) 的 执行 。 在 发 生 一 个 缺 页 中 断 的 情况 下 ， 操 作 系统 将 初始 化 一 个 磁盘 - Fi a 
的 DMA 传输 ， 并 放置 中 断 进 程 的 ID (如 进程 - 1 ) 到 一 个 等 待 队列 中 。 当 该 页 正在 传输 时 , 
操作 系统 将 唤醒 或 开始 另 一 个 进程 的 执行 。 当 这 次 DMA 传输 完成 时 ，DMA 控制 器 将 中 断 
当前 执行 的 进程 (如 进程 - 2 )， 控 制 权 交 还 给 OS, OS 之 后 将 进程 - 1 的 ID 从 等 待 队列 移 
动 到 被 一 个 准备 执行 队列 ， 这 个 准备 执行 队列 被 称 为 准备 队列 。 

在 准备 队列 中 的 进程 (包括 进程 - 1 ) 将 轮转 使 用 一 部 分 处 理 器 时 间 ， 这 个 时 间 叫 作 时 
间 片 。 使 用 一 个 定时 器 模块 来 控制 时 间 片 的 持续 时 间 ， 当 前 时 间 片 耗 尽 时 ， 和 定时 器 模块 将 发 
生 一 个 中 断 。 每 个 进程 可 使 用 一 个 或 多 个 时 间 片 来 完成 执行 过 程 。 一 旦 发 生 一 个 时 间 片 中 
断 ，OS 将 放置 被 中 断 的 进程 的 ID 到 准备 队列 中 并 将 处 理 器 使 用 权限 交 给 准备 队列 队 首 ID 
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“对 应 的 进程 。 当 轮转 到 进程 - 1 (和 准备 队列 中 的 其 他 进程 相似 ) 时 ， 进 程 - 1 将 恢复 执行 ， 


直到 发 生 另 一 个 中 断 ， 中 断 包括 另 一 个 缺 页 中 断 或 时 间 片 中 断 等 。] 

硬件 中 断 ， 例 如 DMA 中 断 和 DCI 中 断 ， 并 不 是 处 理 器 的 内 部 中 断 ， 被 称 为 异步 中 断 。 
这 些 中 断 可 以 在 任意 程序 执行 过 程 中 的 任意 时 间 任 意 地 点 发 生 。 例 如 ， 当 一 个 系统 使 用 中 断 
驱动 IO 来 给 鼠标 和 键盘 提供 服务 ， 鼠 标 移 动 和 键 按 下 的 准确 时 间 是 不 可 知 的 。 

Intel 的 “INT” 和 ARM 的 “SWI” 是 软件 中 断 指令 的 示例 。 软 件 中 断 总 是 同步 的 ， 其 
可 以 用 于 多 种 目的 ， 包 含 允 许 程序 轮转 和 访问 共享 资源 ， 共 享 资源 如 可 读 写 文件 的 磁盘 驱动 
器 。 这 里 ， 我 们 使 用 术语 中 断 来 表示 所 有 类 型 的 中 断 。 


9.6.1 中 断 处 理 


图 9-21 说 明了 调用 硬件 中 断 处 理 程序 (IH) 和 子 中 断 调 用 〈 例 如 函数 、 程 序 或 方法 ) 之 
间 的 区 别 。 当 一 个 程序 执行 跳 转 /分支 子 程序 指令 时 ， 如 包含 子 程序 起 始 地 址 的 “JSUB 
ort”， 子 程序 将 被 调用 。 在 图 中 ， 子 程序 或 IH 的 起 始 和 结束 地 址 被 标记 为 B 和 C。 跳 转 指 
令 开 始 了 一 个 子 程序 的 执行 ， 如 图 9-21a 所 示 ， 从 A 到 B 的 实 线 箭头 阐述 了 调用 过 程 ， 而 
从 C 到 DD 的 箭头 为 子 程序 的 返回 。 在 执行 一 个 子 程 序 之 后 ， 控 制 权 交 回 给 调用 程序 ， 返 回 
到 程序 唤醒 执行 的 地 址 D。 

另 一 方面 ， 一 个 硬件 中 断 处 理 程序 的 执行 并 不 是 通过 一 条 指令 来 开始 的 ， 通 过 图 9-21b 
中 的 虚线 箭头 来 表示 。 在 这 种 情况 下 ，CPU 必须 首先 发 现 产 生 中 断 的 原因 ， 并 据 此 决定 调 
用 哪 一 个 IH。 例 如 ， 如 果 产 生 中 断 的 原因 是 鼠标 移动 ， 鼠 标 TH 将 被 调用 。 

当前 指令 执行 完毕 后 ，CPU 将 检测 为 中 断 等 待 的 其 他 请 求 ， 例 如 检测 图 9-17 中 intr 信 
号 是 否 被 选中 。 例 如 ， 如 果 CPU 发 现 与 鼠标 相关 的 intr 信号 被 选中 ，CPU 将 调用 鼠标 IH。 
鼠标 IH 将 与 鼠标 DCI 进行 通信 ， 访 问 其 端口 并 读 入 鼠标 位 移 信息 ，IH 将 根据 位 移 信 息 移动 
屏幕 中 的 鼠标 。 

软件 中 断 处 理 程序 一 般 是 用 整数 来 标号 的 ， 例 如 ， 奔 腾 的 指令 “INT 3”， 表 示 一 个 断 点 
异常 ， 用 于 调试 工具 ， 以 便 在 测试 时 为 程序 创建 一 个 断 点 [5]。 当 程序 执行 到 断 点 时 ， 当 前 
主 程序 将 被 中 断 ， 调 用 一 个 中 断 处 理 程序 。 

当 调 用 IH 或 调用 子 程序 时 ，CPU 的 状态 ， 例 如， 图 8-7 (第 8 章 ) 中 ACC、X、SR 和 
程序 指针 ( PP) 的 内 容 ， 将 被 IH 或 子 程序 保存 在 CPU 内 部 或 在 主 存 储 器 中 。 当 IH 或 子 程 
序 执行 结束 时 ， 控 制 权 将 返回 给 被 中 断 的 或 调用 的 程序 ， 并 恢复 保存 的 状态 。 保 存 的 PP AY 
作 返 回 地 址 或 返回 程序 指针 ( RPP)。 在 图 中 ， 子 程序 的 RPP 是 地 址 D, m IH 的 RPP 会 是 
地 址 A 或 地 址 D, 具体 将 在 下 面 讨论 。 

1. 确定 中 断 

确定 中 断 指 的 是 根据 产生 中 断 的 原因 ， 由 CPU 执行 的 一 一 系列 规则 。 下 面 是 应 用 于 确定 
中 断 的 一 系列 规则 : 

1 ) 所 有 在 RPP 之 前 的 指令 必须 已 执行 完成 并 且 CPU 状态 恢复 完毕 。 

2 ) 所 有 从 RPP 开始 的 指令 均 未 开始 执行 。 

3) 在 中 断 是 由 同步 事件 产生 的 ， 除 了 软件 中 断 ，RPP 必须 指向 导致 本 次 异常 的 指令 。 
此 外 ， 如 果 本 次 中 断 是 由 执行 单元 提出 的 ， 例 如 算术 溢出 ， 执 行 的 结果 不 会 改变 处 理 器 的 状 
态 。 例 如 ， 图 8-7 (第 8 章 ) 中 当 “ADD ”指令 造成 算术 溢出 时 ，ACC 寄存 器 的 内 容 不 会 改 
变 。ACC 中 的 内 容 会 被 相应 地 IH 分 析 处 理 。 
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a ) 一 个 子 程序 ( 函数 、 程 序 、 方 法 ) 调用 


— 子 程序 调用 指令 确定 地 址 B; 
子 程序 返回 至 主 程序 下 一 条 指令 





第 一 条 = 
程序 指令 Te 
se 保存 
wen 进程 
y "ai 状态 
se we 
E rt 
最 后 二 条 “S 
指 
b) 调用 一 个 IH 
处 理 器 确定 地 址 B; 


caai > 根据 中 断 类 型 确定 IH 返 回 至 
当前 指令 或 下 一 条 程序 指令 


图 9-21 子 程序 调用 和 中 断 处 理 程序 调用 ; 虚 箭 头 与 实 箭 头 


4) 如 果 是 异步 (外 部 的 ) 事件 引发 的 中 断 或 软件 中 断 ，RPP 必须 指向 下 一 条 指令 。 

如 果 CPU 的 数据 通路 是 单 周 期 的 ， 在 执行 当前 指令 时 执行 中 断 检查 ， 如 9.7 节 所 述 。 
如 果 CPU 数据 通路 是 多 周期 的 ， 将 在 退出 指令 的 最 后 一 次 数据 通路 操作 期 间 执行 中 断 检查 。 
如 果 CPU 数据 通路 是 流水 线 的 ， 中 断 检测 将 在 写 回 阶 段 进行 ， 写 回 阶 段 表 明 当 前 指令 执行 
完成 即将 退出 。 

在 流水 线 CPU 中 的 确定 中 断 比 在 单 周 期 或 多 周期 数据 通路 中 更 加 复杂 。 因 为 在 流水 线 
中 多 个 阶段 同时 运转 ， 可 能 在 同一 时 间 产 生 多 条 中 断 请 求 。 在 这 种 情况 下 ， 指 令 地 址 (例如 
PP 中 的 内 容 ) 将 伴随 着 已 经 被 取 的 指令 从 取 指 令 阶 段 转移 到 译 码 阶段 。 指 令 地 址 和 在 每 个 
阶段 生成 的 任意 中 断 请 求 都 将 从 该 阶段 转移 到 下 一 个 阶段 直到 转移 至 写 回 阶段 。 

当 发 生 一 个 中 断 时 ，RPP 作为 保存 在 主 存储 器 中 的 CPU 状态 的 一 部 分 保存 在 一 个 内 部 
的 寄存 器 中 ，PP 的 内 容 将 被 改变 转 而 去 执行 一 个 IH., WR CPU 的 数据 通路 采用 流水 线 ， 这 
也 将 造成 一 次 流水 线 清空 。 注 意 在 寄存 器 中 的 内 容 不 会 被 清除 而 是 保留 下 来 使 得 其 可 以 被 
IH 存储 到 主 存储 器 中 。 正 如 我 们 早先 讨论 的 那样 ，CPU 的 状态 也 可 以 保存 在 CPU 内 部 〈 见 
练习 部 分 ) 。 关 于 确定 中 断 在 流水 线 CPU 中 更 详细 的 介绍 可 参考 其 他 书籍 。 
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2. 向 量 中 断 
向 量 中 断 指 的 是 系统 中 存在 多 个 IH， 另 一 方面 ， 非 向 量 中 断 意味 着 在 其 所 有 中 断 处 理 
中 只 有 一 个 IH。 图 9-22 分 别 说 明了 存储 器 中 一 个 单独 的 TH 和 多 个 I 的 组 织 结构 。 在 触发 
非 向 量 中 断 的 情况 下 ， 每 次 发 生 中 断 时 只 会 触发 一 个 单独 的 IE， 中断 处 理 程序 之 后 将 对 优 
先 级 最 高 的 中 断 设备 提供 服务 。 非 向 量 中 断 机 制 实现 方式 比较 简单 ， 但 是 因为 所 有 的 中 断 都 
是 由 一 个 例 程 来 处 理 的 ， 中 断 无 法 迅速 被 处 理 ， 因 此 在 现代 计算 机 系统 中 非 向 量 中 断 并 不 常 
H. Am, WKE 9.7 节 讨 论 的 ， 非 向 量 中 断 机 制 可 用 于 简化 说 明 CPU 中 断 处 理 的 数据 通 
路 细节 。 
下 面 列 出 了 实现 向 量 中 断 的 具体 要 求 : 
e 必须 在 主 存储 器 中 保留 一 小 块 区域 以 存储 中 断 向 量 表 ， 中 断 癌 量 表 的 起 始 地 址 标记 
为 “基地 址 ”， 如 图 9-22b 所 示 。 | | 
e 从 每 个 DCI 和 DMA 控制 器 中 发 出 的 中 断 请 求 必 须 先 在 硬件 中 进行 优先 级 排序 从 而 
生成 一 个 独特 的 数字 ， 这 个 数字 被 称 为 中 断 向 量 (IV)， 其 与 最 高 权限 的 IH FAX. IV 
是 用 于 调用 一 个 相应 的 中 断 处 理 程序 。 
e 在 系统 启动 过 程 中 ， 随 着 跳 转 指令 的 执行 ， 中 断 向 量 表 中 的 每 个 条 目 必 须 填 人 不 同 
的 IH， 每 个 IV 对 应 一 个 IH. 
o 当 处 理 器 采用 向 量 中 断 时 ， 处 理 器 的 数据 通路 必须 通过 添加 新 的 寄存 器 和 电路 的 扩 





展 方式 来 执行 新 的 指令 和 特性 。 
每 个 字 2 字 节 
> 
We IV*2+base address 
当 有 中 断 处 理 
IHL: 函数 被 调用 时 ， 
IH 使 用 IV 来 确定 
处 理 哪 一 个 中 断 
存储 器 存储 器 
a) 单 中 断 处 理 程序 ( 不 是 向 量 的 ) b ) 多 中 断 处 理 程 序 ( 向 量 的 ) 


图 9-22 ”向 量 中 断 的 处 理 函 数 ; 假设 存储 器 中 每 个 字 2 字 节 


公式 (9-2) 说 明了 如 何 通过 一 个 IV 和 中 断 向 量 表 的 base_address 的 线性 函数 来 确定 中 
新 处 理 指针 (IHP) 的 示例 。 如 IV = 1, 2, 3 4, IHP = base address + 2，base address + 4 等 ， 
其 是 在 假定 每 个 条 目 为 2B 时 访问 中 断 向 量 表 中 某 个 条 目的 案 引 。IV = 0， 如 后 文 所 述 ， 可 
以 用 于 表示 没有 任何 中 断 请 求 。 

IHP = IV * 2 + base_address (9-2 ) 
图 9-23 说 明了 多 个 已 进行 优先 级 排序 的 IH 的 执行 顺序 。 具 有 更 高 优先 级 的 中 断 处 理 程 
序 总 是 可 以 中 断 具 有 低 优 先 级 的 程序 ， 但 是 反 过 来 不 可 以 。 此 外 ， 当 调用 中 断 处 理 程 序 时 ， 
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包括 中 断 程序 的 返回 地 址 在 内 的 处 理 絮 状态 必须 被 保存 (一 般 保存 在 存储 器 中 )。 

下 列 描述 了 CPU 调用 一 个 H 的 相关 步骤 ; BE T IV 已 经 进行 了 优先 级 排序 ,IH1 (IV = 
1) 相对 于 IH2 (IV = 2 ) 具有 较 低 的 优先 级 ， 而 IH2 对 于 IH3 (IV=3) 具有 较 低 的 优先 级 ， 等 
等 ， 如 图 9-23 所 示 。 此 外 ，IV = 0 是 用 于 表示 没有 任何 中 断 请 求 : 

1) 当 处 理 器 接收 到 一 个 中 断 IV 时 (标记 为 IVr)， 如 果 当 前 CPU 无 法 检查 该 中 断 请 求 
的 特性 或 者 当前 执行 的 IE (标记 为 IVc) 优先 级 比 IVr 高 ， 处 理 器 将 暂时 忽略 该 中 断 请 求 。 
这 也 就 是 说 ， 当 IVr < IVc 时 ，CPU 将 忽略 IVr， 保 持 该 中 断 请 求 挂 起 ， 直 到 当前 的 与 IVe 
相应 的 中 断 处 理 程序 结束 。 另 外 ， 如 果 CPU 可 检查 中 断 请 求 特 性 并 且 IVr>IVc，CPU 将 
保存 当前 执行 的 IH 的 RPP Al [Vc 到 CPU 中 的 特殊 寄存 器 中 ， 并 使 用 IHP = IV * 2 + base_ 
address 改变 PP 的 内 容 ， 改 变 IVe 的 优先 级 ， 使 得 IVe = IVr。 例 如 ， 当 IVc= 1 并 且 IVr = 
2 时 ，CPU 将 为 IH1 保存 RPP1， 并 保存 IVe = 1, 使 用 base address + 4 代替 PP 中 的 内 容 ， 
HBE IVe =IV2。 _ 

2) CPU 在 存储 器 地 址 IHP 执行 跳 转 指令 ， 开 始 执行 与 当前 IVe 对 应 的 IH (如 当 IVc = 
2 时 为 IH2 )。 

3 ) 调用 中 断 处 理 程序 之 前 ， 必 须 先 保存 处 理 器 状态 ,保存 包括 RPP. [Vc 等 到 存储 器 
中 ( 见 9.6.2 节 )。 然 而 ，CPU 将 继续 监视 IVr 以 应 对 更 高 优先 级 的 IV。 

4) IH 将 对 如 DCI 或 DMA 控制 器 等 中 断 设备 提供 服务 。 一 旦 完成 ， 中 断 处 理 程序 将 恢 
复 包括 保存 的 RPP. IVe 等 处 理 器 状态 ， 返 回 到 被 中 断 的 程序 ， 使 得 其 可 以 被 唤醒 执行 ， 被 
中 断 的 程序 可 以 是 较 低 优先 级 的 IH (如 IH1 ) 或 系统 程序 或 应 用 程序 等 。 


a E IV=1 IV=2 IV=k 
pol ’ 最 高 优先 级 
ei) -- BR 一 ae 
Gr 车 >- y” 
- Pall = 
X on TA Mi 
a | MR ve 
最 后 一 条 
程序 指令 RPP: 返回 程序 指针 
9-23 多 个 中 断 处 理 程 序 的 调用 过 程 
9.6.2 中断 结构 


图 9-24 说 明了 对 两 种 中 断 请 求 进 行 优先 级 排序 的 硬件 中 断 结构 ， 菊 花 链 式 结构 和 独立 
请 求 结 构 。 这 是 用 于 确定 中 断 设备 的 IV，IV 继而 用 于 确定 调用 哪个 IH 来 为 中 断 设备 提供 
服务 。 这 些 结 构 的 细节 将 在 下 文 说 明 。 

1. 菊花 链 

图 9-24a 中 的 结构 将 所 有 中 断 请 求 设置 为 固定 的 优先 级 。 当 信号 int 被 选中 时 ，CPU 将 
选中 一 个 中 断 确认 信号 Cack) 来 确定 最 高 优先 级 的 IV。 

关于 菊花 链 模块 的 详细 电路 模型 如 图 9-24b 所 示 。 当 IVr 被 选中 时 ，iack 信号 将 从 一 个 
菊花 链 模块 转移 到 另 一 个 模块 ， 直 到 遇 到 最 高 优先 级 (在 那 一 时 刻 ) 的 模块 。 在 设置 过 程 中 
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每 个 DCI 将 被 分 配 一 个 独特 的 IV。 对 于 USB 设备 ， 只 有 USB EFE harik oO BT PADRE o 

虽然 图 9-24a 中 的 结构 是 可 扩展 的 并 且 更 多 设备 可 添加 到 系统 中 ， 其 劣势 在 于 位 于 菊花 
链 尾部 的 DCI 可 能 会 产生 饥饿 现象 。 当 到 达 位 于 菊花 链 尾 部 具有 最 低 优先 级 的 模块 时 ， 具 
有 较 高 优先 级 的 DCI 可 以 阻止 iack = 1。 

2. 独立 请 求 

图 9-24c 中 的 结构 是 使 用 一 个 优先 级 编码 句 来 快速 确定 最 高 优先 级 的 IV。 在 图 中 ，8-3 
优先 级 编码 器 通过 连接 输入 信号 0 到 地 上 实现 一 个 7-3 编码 器 。 在 这 种 情况 下 ， 当 7 个 中 断 
请 求 信号 都 未 激活 时 ，IVr = 0。 此 外 ，IVr = 0 用 于 表示 当前 处 理 器 无 任何 挂 起 的 中 断 请 求 。 
这 将 消除 图 9-24a 中 的 int 信和 号， 减少 一 个 CPU 输入 信号 。 

除了 使 用 混合 结构 一 一 部 分 独立 请 求 结构 ， 部 分 菊花 链 式 结构 一 一 来 实现 中 断 优先 级 ， 
独立 请 求 结构 都 不 需要 iack 信号 。 在 一 个 系统 中 ， 所 有 的 DCI 都 将 被 分 类 为 多 个 不 同 的 优 
先 级 类 。 例 如 ， 所 有 的 磁盘 驱动 器 (如 硬盘 和 CD 盘 驱 动 器 ) 可 以 被 视 为 设备 类 的 一 部 分 。 
在 这 种 情况 下 ，IVr 用 于 分 辨 同一 个 类 中 的 所 有 DCI (如 所 有 的 磁盘 驱动 器 )，iack 信号 将 用 








407| 于 分 辩 IVr 对 应 的 拓 中 茶 个 特殊 的 设备 《如 优盘 驱动 硕 )。 
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b ) 菊花 链 模块 c) 独立 请 求 结构 
图 9-24 中 断 结构 : a) 菊花 链 式 结 构 ; b) 菊花 链 模 块 ; c) 独立 请 求 结构 
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9.7 设计 示例 : 中 断 处 理 CPU 


这 一 小 节 说 明了 中 断 处 理 CPU 的 数据 通路 需要 包含 以 下 要 求 和 特性 : 
e 图 8-7 (第 8 章 ) 中 的 单 周 期 累加 器 ISA CPU 的 数据 通路 是 可 扩展 来 实现 给 多 个 设备 
提供 服务 的 单一 TH 的 调用 机 制 。 
o IHP 是 硬 编码 到 CPU 内 的 存储 器 地 址 0x40， 假 定 地 址 宽度 为 8 位 。 在 这 里 ， 地 址 
0x40 是 任意 选择 的 。 
e IH 可 最 多 服务 16 个 设备 ， 包 括 一 个 定时 融 模 块 、 一 个 DMA 控制 部 和 1 ~ 14 个 IO 
设备 。 
© 菊花 链 式 结构 (图 9-29a) 是 用 于 给 从 16 个 设备 发 出 的 中 断 请 求 进行 优先 级 排序 ， 其 
中 IV= 15 (最 高 权限 ) 是 分 配给 定时 器 模块 ，IV = 14 分 配给 DMA 控制 器 ，0 (最 低 
权限 ) 分 配给 键盘 。 注 意 ， 应 为 我 们 使 用 菊花 链 式 中 断 结构 ， 我 们 也 可 以 使 用 IV= 0 
作为 一 个 合法 的 设备 IV。 
e 一 旦 发 生 一 个 中 断 ，CPU 的 状态 由 ACC、X、SR 等 寄存 器 的 内 容 定义 ， 将 被 IH 保 
存在 存储 器 中 。 返 回 地 址 (RPP) 将 被 保存 在 CPU 内 部 。 
图 9-25 阐明 了 一 个 16 级 菊花 链 式 中 断 结 构 ， 其 对 包括 一 个 定时 器 、 一 个 DMA 和 
1 ~ 14 个 IO 中 断 请 求 (图 中 只 显示 了 一 个 键盘 ) 在 内 的 设备 进行 优先 级 排序 。 每 个 设备 的 
DCI 将 生成 一 个 中 断 请 求 (intr) 信号 ， 其 在 设备 需要 CPU 提供 服务 时 将 变 为 1。 例如 ， 当 
键盘 中 某 个 键 按 下 时 将 设置 其 中 断 请 求 信 号 intro 为 1 (也 可 参见 图 9-17 )， 使 得 CPU 中 断 当 
前 执行 的 指令 并 开始 执行 服务 键盘 的 IH。 
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DC 
9-25 一 个 16 级 菊花 链 式 中 断 结构 ， 对 16 个 设备 的 中 断 请 求 按 最 高 (IV = 15) 到 最 低 (IV=0) | 
进行 优先 级 排序 409 


相似 的 ， 当 DMA 完成 一 次 DMA 传输 时 ,DMA 控制 器 将 选中 其 中 断 请 求 信号 intr14( 也 
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可 参见 图 9-20 ) 。 定 时 器 模块 也 可 以 向 CPU 发 出 中 断 ， 选 中 其 中 断 请求 信 号 使 mntr15 = 1, 
因此 OS 可 以 启动 或 唤醒 另 一 个 程序 的 执行 。 一 个 IO DCI 可 以 是 专用 的 也 可 以 是 通用 的 ， 
例如 USB 主 控制 器 接口 。 

从 定时 器 模块 、DMA 控制 器 和 最 多 14 个 DCI 中 发 出 的 intr 信 号 通过 线 或 逻辑 产生 一 
个 外 部 中 断 请 求 信号 xint， 如 图 9-25 所 示 。xint 信号 与 CPU 连接 ， 当 CPU 中 断 处 理 特性 启 
用 并 且 xint 信号 选中 时 ， 将 产生 一 次 中 断 。 中 断 处 理 CPU 的 数据 通路 如 图 9-26 所 示 。 


MHIE O- 译 码 单元 ATAT o SR 


wis, 





由 于 El 指令 ，ei=1， 启 用 CPU 检查 中 断 功能 es 
由 于 RTI 指 令 ，rstr=1， 恢 复 PP 
由 于 DI 指 令 ，di=1， 禁 用 C P U 检 查 中 断 功能 


当 此 处 仍然 有 挂 起 的 激活 中 断 请 求 信号 ，xintr=1 启用 、 禁 用 CPU 


ee 
Pte 
= er 当 di=0 并 且 ei=1 或 rstr=1 或 
| SRX e | | 小- 一 int=0 时 FF.d=1 


和 int 
当 di=1、ei=1 且 rstr=1 或 
int a int=1 时 FF.e=1 
注意 ， 在 任意 时 间 ， 信 号 
IV =v3..v0 lark xintr di、ei 和 rstr 只 有 一 个 为 1 


9-26 中断 处 理 CPU 的 数据 通路 ， 其 是 对 第 8 章 中 的 累加 器 ISA 的 扩展 
新 的 数据 通路 实现 了 8 条 新 指令 ， 如 表 9-5 所 示 ， 其 又 包含 了 下 列 新 加 的 硬件 : 
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e 一 个 DD 触发 器 (FF) 是 用 于 使 能 或 不 使 能 CPU 检查 中 断 特 性 。 当 “EI” 或 “RTI” 
指令 执行 时 ，FF 将 会 被 设置 为 1 (例如 FF.q = 1 )。 

e 添加 了 一 个 辅助 的 程序 指针 寄存 器 (PPX) 用 于 保存 RPP。 在 这 种 情况 下 ，RPP 中 
存储 的 是 当前 执行 程序 的 下 一 条 指令 的 地 址 。 当 从 中 断 处 理 程序 中 返回 时 ， 程 序 将 
从 保存 在 PPX 中 的 地 址 开始 重新 执行 。 当 指令 RT 执行 时 ， 位 于 取 指 令 单 元 的 2-1 
MUX7 将 选择 PPX (PPX 中 的 内 容 ) 作为 下 一 个 PP (PP 的 内 容 )。 

e 在 取 指 令 单元 新 加 一 个 2-1 MUX5， 在 发 生 中 断 时 其 将 选择 硬 编码 的 IHP = 0x40 作 
为 下 — 个 PP | 

o 在 译 码 单元 新 加 一 个 辅助 状态 寄存 器 ( SRX) 来 保存 具有 最 高 优先 级 的 中 断 设 备 对 应 
的 IV。 

eo 指令 译 码 单元 可 被 修改 ， 其 包含 了 3 个 或 更 多 的 信号 ,为 ei (启用 CPU 检查 中 断 功 
能 )\rstr (恢复 ) 和 di( 禁 用 CPU 检查 中 断 功 能 )。 当 EI 指令 执行 时 ,ei 信和 号 将 被 选中 。 
ei 信号 在 下 一 个 时 钟 周 期 设置 FF (FF.q = 1 )， 其 将 启用 CPU 检查 中 断 功 能 。rstr 信 
号 在 RTI 指令 执行 时 也 将 被 设置 FF (FF.q= 1 )。 当 DI 指令 执行 时 ,di 信号 将 被 选中 ， 
其 将 同步 地 复位 FF (FF.q = 0 ) 并 禁用 CPU 检查 中 断 的 功能 。 

e 写 回 阶段 的 MUX4 被 一 个 8-1 MUX RE, Mit ACC SRX, ACC e SR 和 
ACC +X, FOR IH 调用 保存 CPU 状态 到 存储 器 中 。 

一 旦 复位 ，FF 将 被 置 为 0 (FF.q = 0 )， 禁 用 CPU 检查 中 断 的 功能 。FF.q 将 一 直 保 持 为 

0 直到 系统 启动 并 且 操 作 系 统 完 成 初始 化 整个 系统 的 以 下 动作 : 

e 加 载 单独 的 IH 到 存储 器 起 始 地 址 ， 例 如 ， 地 址 0x42。 

o 存储 指令 “JMP 0x42” 到 IHP = 0x40 位 置 。 

e 通过 执行 EI 指令 ,使 得 FF.q = 1， 启 用 CPU 检查 中 断 功能 ， 开 中 断 。 


表 9-5 用 于 实现 单 中 断 处 理 机 制 的 新 指令 


指令 a 
DI (optional) FF.q <0: 关中 断 : 该 指令 是 用 于 同步 复位 FF (FF.q = 0)。 当 FF 复位 时 ， 当 
pale HATS AR 


开 中 断 : 该 指令 用 于 同步 设置 FF (FF.q= 1 )。 当 FF 被 设置 后 ， 如 
果 xint = 1， 当 前 执行 的 指令 将 被 中 断 

移动 SR 中 内 容 到 ACC: 该 指令 将 复制 SR 寄存 器 中 的 1 位 数据 (用 
MVSR2ACC ACC + SR; 0 填补 ) 到 ACC 寄存 器 中 ， 使 得 SR 寄存 器 中 的 内 容 可 被 中 断 处 理 程 
序 (IH) 保存 在 存储 器 中 

移动 X 到 ACC: 该 指令 复制 X 寄存 器 中 的 内 容 到 ACC 中 ， 使 得 和 X 
寄存 器 中 的 内 容 可 以 被 IH 保存 到 存储 器 中 

移动 ACC 到 SR : 该 指令 复制 ACC 的 最 低 有 效 位 (LSB) 到 SR 寄 
存 器 中 。IH 在 返回 时 执行 该 指令 来 恢复 被 中 断 的 程序 的 状态 

移动 ACC 到 X : 该 指令 复制 ACC 中 的 内 容 到 X 寄存 器 中 ，IH 在 
返回 时 执行 该 指令 来 恢复 被 中 断 的 程序 的 状态 

移动 SRX 到 ACC: 该 指令 复制 SRX 中 的 内 容 到 ACC 中 ，IH 执行 
该 指令 来 确定 中 断 设备 的 IV 

从 中 断 处 理 程序 中 返回 : 该 指令 是 IH 中 的 最 后 一 条 指令 。 其 将 开 

RTI FF.q+ 1, PP — PPX; | 中断 ， 同 步 设置 FF (FF.q= 1 )， 并 返回 使 得 被 中 断 的 程序 可 以 被 唤醒 
执行 。 注 意 ， 某 些 程序 在 从 异常 中 返回 时 调用 该 指令 


EI FF.q 一 1; 


MVX2ACC ACC + X; 


MVACC2SR SR +— LSB of ACC; 


MVACC2X X= ACC; 


MVSRX2ACC ACC + SRX; 
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系统 正常 运行 过 程 中 ， 可 以 有 一 个 或 多 个 中 断 请 求 信号 (intr)( 如 图 9-25 Bray) 被 选中 。 
每 当 xintr 信号 变 为 1 并 且 CPU 开启 检查 中 断 功 能 时 (如 FF.q = 1)， 在 CPU 内 部 的 int 信号 
变 为 1， 并 导致 在 下 一 个 时 钟 周期 进行 以 下 操作 : 
e 通过 MUX7，int = 1 将 导致 数据 通路 执行 PPX — PP + 2。 将 PP+2 的 值 作为 RPP 保 
存 起 来 。 当 从 中 断 处 理 程序 中 返回 后 ， 被 中 断 的 程序 将 从 RPP 的 指令 地 址 唤醒 执行 
( 见 图 9-21b)。 
e 通过 MUX5 和 MUX7，int = 1 将 导致 数据 通知 执行 PP 二 0x40。 导 致 接 下 来 执行 位 
于 存储 器 地 址 0x40 的 指令 “JMP 0x42”， 从 而 开始 单一 IH 的 执行 。 
o int = 1 EHF SRX -IV 从 而 保存 最 高 优先 级 设备 的 IV。 注 意 ， 当 int= 1 并 且 
xintr = 1 时 ，iack 将 变 为 1， 反 过 来 选择 请 求 服 务 的 最 高 优先 级 设备 (图 9-25 ) HIV. 
e int = 1 也 同步 复位 FF， 使 得 FF.q = 0， 这 将 关闭 CPU 检查 中 断 的 功能 。 当 FF.q=0 
时 ，int 将 保持 为 0， 并 阻止 当前 程序 的 执行 ， 当 前 程序 可 能 是 一 个 在 系统 初始 化 过 
程 中 的 一 个 OS 例 程 ， 或 是 正常 运行 过 程 中 的 一 个 IH。 
例 9-2 中 的 伪 码 概括 了 单一 IH 在 多 个 设备 间 为 一 个 请 求 中 断 的 设备 提供 服务 的 必要 步 
又 。 中 断 处 理 程序 执行 以 下 4 个 主要 任务 : 
1) TH 保存 被 中 断 程序 的 状态 到 存储 器 中 ， 被 中 断 程序 的 状态 指 的 是 ACC、X 和 SR 等 寄 
存 右 中 的 内 容 。 在 伪 码 中 ， 这 部 分 在 函数 save_cpu_status () 中 ， 该 函数 包含 以 下 代码 : 


STA Temp1; // save ACC, for "STA" refer to Chap. 8 
MVX2ACC 

STA Temp2 // save X 

MVSR2ACC 

STA Temp3 // save SR 


2) TH 必须 确定 中 断 设 备 的 IV， 这 样 IH 才 可 以 调用 一 个 驱动 例 程 来 给 设备 提供 服务 ， 
并 复位 设备 中 断 请 求 信 号 〈intr) 参考 9.5.1 节 键 盘 示 例 。 这 部 分 在 伪 码 中 是 “iv = get_ 
iv)” # “switch” iB“), K% get iv’) 将 只 用 MVSRX2ACC 指令 来 复制 SRX 中 的 内 容 到 
ACC 中 ， 接 着 将 其 中 内 容 与 0、1、2 等 比较 ， 来 确定 中 断 设备 的 TV。 

3 ) 中 断 处 理 函 数 在 返回 之 前 必须 恢复 被 中 断 程序 的 状态 。 这 部 分 在 函数 restore_ 
cpu_status() 中 ,包含 以 下 代码 : | 





LDA Temp3; // for "LDA" refer to Chap. 8 
MVACC2SR // restore SR 

LDA Temp2 

MVACC2X // restore X 

LDA Temp1 // restore ACC 


4) TH 将 执行 RTI 指令 ， 导 致 数据 通路 在 下 一 个 时 钟 周 期 执行 PP — PPX A FF.q<+- 1. 
这 将 恢复 返回 地 址 ， 恢 复 被 中 断 程序 的 执行 ， 并 开始 CPU 检查 中 断 功能 。 

通过 伪 码 概述 单一 H 给 如 定时 模块 、DMA 控制 器 或 IO 设备 等 中 断 设 备 提 
供 服务 的 过 程 ， 每 次 给 一 个 设备 提供 服务 : 


interrupt_handler_routine() //invoked when PP is set to 
//interrupt handler pointer (IHP = 
//0x40 in Fig. 9.26) 

{ 

save_cpu_status() ; //save contents of ACC, X, and 
//SR to memory 


iv = get_iv(); //get IV from the SRX 
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switch (iv) 


15: handle timer_interrupt(); break; //IV=15, highest 
14: handle DMA interrupt(); break; 


0: handle keyboard interrupt () ; //lowest 

endswitch; 

restore_cpu_status() ; //xrestore contents of ACC, X, 
//and SR from memory 

return from intrrupt () ; //RTI 


} ri 


当 从 一 个 中 断 中 返回 时 ，CPU 检测 到 xintr = 1， 中 断 处 理 程序 将 再 次 被 调用 来 为 另 一 个 
挂 起 intr = 1 的 设备 提供 服务 。 

最 后 ， 包 含 了 表 9-5 中 的 关中 断 指 令 (DI) 以 防止 使 用 软 复位 一 一 例如 ， 使 用 菜单 中 的 
“restart ”选项 。 单 一 IH 机 制 的 劣势 在 于 当 CPU 执行 一 个 IH 时 ， 如 果 有 男 一 个 更 高 优先 级 
的 设备 请 求 服务 ， 更 高 优先 级 的 设备 必须 等 到 当前 中 断 处 理 程序 完成 其 任务 并 返回 时 才能 得 
到 服务 。 因 为 这 个 原因 ， 现 代 计 算 机 系统 实行 器 量化 的 中 断 机 制 使 得 CPU 执行 具有 低 优 先 
级 设备 的 IH 时 可 被 中 断 ， 从 而 执行 高 优先 级 设备 的 IH (例如 DMA)， 如 图 9-23 所 示 。 


9.8 USB 主 控制 兹 接口 


我 们 已 经 在 9.5.2 节 中 简单 地 讨论 了 主 控制 器 接口 的 需求 。 设 计 USB 主 控 制 器 接口 的 主 
要 目的 是 将 CPU 从 直接 执行 任务 来 为 多 个 潜在 的 IO 设备 提供 服务 这 一 繁琐 过 程 中 解放 出 
来 。 在 这 种 情况 下 ， 因 为 有 太 多 设备 发 出 中 断 ， 中 断 驱 动 传输 机 制 可 能 并 不 实用 ， 而 程序 化 
传输 也 不 是 一 个 可 行 性 方案 ， 因 为 其 浪费 了 太 多 有 价值 的 CPU 时 间 。 此 外 ，USB 主 控制 器 
接口 实行 “ 即 插 即 用 ”， 从 而 在 不 安装 设备 驱动 并 系统 重启 的 情况 下 支持 多 个 USB 设备 。 


9.8.1 标准 


根据 通用 主 控制 器 接口 (UHCI) 或 开放 式 主 控制 器 接口 (OHCI) 对 传输 速率 为 1.5Mbps 
的 低速 设备 和 12Mbps 的 全 速 设 备 的 适用 特性 ， 设 计 了 USB 1.x 标准 。 男 一 方面 ，USB 2.0 
标准 是 基于 增强 型 主 控制 器 接口 (EHCI)， 设 计 可 支持 传输 速率 最 高 可 达 480Mbps 的 高 速 设 
备 。USB 3.0 设计 用 于 支持 传输 速率 高 达 SGbps 的 高 速 设 备 。 每 一 代 USB 主 控制 器 接口 也 
包含 根 集线器 来 为 更 低速 率 的 设备 提供 服务 。 例 如 ，USB 2.0 主 控制 接口 包含 根 集线器 来 服 
务 低速 设备 和 全 速 设备 ， 此 外 ， 其 还 为 高 速 设 备 提供 服务 。 

一 个 USB 电缆 包含 4 个 电线 ， 其 中 有 两 个 是 电源 和 地 ， 另 外 两 个 是 数据 信号 线 ， 标 记 
为 D + 和 D -。 一 个 USB 通信 模块 使 用 D + AD - 信和 号 线 来 发 送 / 接收 采用 NRZI 编码 方式 
的 数据 包 (参考 第 5 章 、 第 6 章 基 于 NRZI 信息 的 练习 部 分 )。USB 包 被 分 为 令 牌 、 数 据 和 握 
手 ， 如 图 9-27 所 示 。 每 个 包 以 一 个 同步 序列 开始 ， 以 一 个 包 结 束 (EOP) 标记 结束 。USB 1.x 
的 包 以 一 个 8 位 同步 序列 〈 如 00000001) 开始 ， 以 一 个 EOP 标记 结束 ，EOP 将 保持 D+ 和 
D -信号 2 位 时 长 为 0。 另 一 方面 ，USB 2.0 标准 使 用 32 位 (4B) 同步 序列 和 8 位 EOP 标记 。 


98.2 BS 


每 个 USB 事务 包含 一 个 或 多 个 包 。 例 如 ， 一 个 发 送 打 印 数据 给 打印 机 的 事务 要 求 ， 按 
顺序 ， 为 令 牌 包 、 数 据 包 和 握手 包 。 
如 图 9.27 所 示 ， 令 牌 包 和 数据 包 都 包含 一 个 类 型 域 、 一 个 数据 域 和 一 个 放置 错误 检测 
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代码 的 域 。 握 手包 只 有 一 个 类 型 域 。 一 个 令 牌 包 用 于 确定 4 种 事务 中 的 一 种 ，4 种 事务 分 别 
为 帧 起 始 (SOF )、 建 立 (SETUP)、 输 入 CIN) 和 输出 (OUTPUT)， 如 表 9-6 所 示 。 一 个 数 
据 包 包含 一 个 有 效 负 荷 并 且 其 类 型 为 数据 0 或 数据 1。USB 2.0 有 其 他 的 数据 类 型 ， 例 如 数 
据 2， 其 用 于 告知 将 被 多 个 事务 传输 的 大 有 效 负 集 的 大 小 。 


类 型 
E= ESA 
| Ma ene 数据 EOP | 
| ewn | | pa 
aay 令 牌 包 
类 型 
| 同步 | 数据 0 数据 EOP | 
| , 
| 序 烈 | 数据 1， 等 等 (有 效 负荷 ) RA gia | 
on 数据 包 E 
类 型 
人 aan 
| DE | we | EOP | 
| IEF) |NACK, 等 等 | 标记 | 
ER 


9-27 三 种 类 型 的 USB 通信 和 包 。 每 个 包 以 一 个 同步 序列 开始 ， 以 一 个 EOP 标记 结束 。 


如 果 一 个 事务 包含 了 一 个 从 /到 设备 的 全 部 的 有 效 数据 负荷 ， 其 数据 包 类 型 将 为 数据 
0。 男 一 方面 ， 如 果 使 用 两 个 或 多 个 事务 来 传输 一 个 大 负荷 ， 连 续 的 数据 包 将 被 交替 标记 为 
数据 0 或 数据 1。 每 个 源 模块 和 目的 模块 包含 一 个 触发 器 ， 其 初始 化 为 0。 

当 源 模块 发 送 或 目的 模块 接收 一 个 数据 0 类 型 或 数据 1 类 型 的 包 时 ， 其 触发 器 将 触发 ， 
如 果 为 0〈 表 明 数 据 0 )， 其 将 变 为 1 (期 待 下 一 个 接收 包 的 类 型 为 数据 1 )， 若 为 1 (表明 数 
据 1 )， 其 将 变 为 0 (期 待 下 一 个 接收 包 的 类 型 为 数据 0 )。 这 保证 了 在 目的 模块 的 数据 包 只 
会 被 接收 一 次 ， 以 防止 发 生 错误 ， 例 如 ， 当 一 个 目的 模块 正确 接收 到 一 个 数据 包 并 且 触 发 了 
其 触发 右 ， 但 是 源 模块 认为 并 不 是 这 样 ， 保 持 其 触发 器 不 变 并 对 该 数据 包 进 行 重 传 。 在 这 种 
情况 下 ， 因 为 两 个 触发 器 不 再 相同 ， 目 的 模块 将 拒绝 接收 重 传 的 数据 包 。 握 手包 有 多 种 用 
途 。 例 如 ， 一 个 确认 包 (ACK) 是 用 于 确认 接收 到 数据 包 ， 非 确认 包 (NACK) 是 用 于 控制 
数据 流 ， 例 如 ， 当 一 个 设备 接收 到 一 个 要 求 其 发 送 数据 的 包 但 其 无 数据 发 送 时 。 


表 9-6 USB 包 标 识 符 示例 


包 描述 
帧 开始 包 用 于 同步 数据 
au 建立 事务 用 于 设备 配置 
输入 包 用 于 从 设备 输入 数据 
OUT 输出 包 用 于 输出 数据 到 设备 
wens 当 发 送 器 的 触发 位 为 0 时 使 用 
当 发 送 器 的 触发 位 为 1 时 使 用 
OUT 


表明 设备 当前 无 法 发 送 或 接收 数据 
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9.8.3 ”传输 


数据 传输 的 4 种 类 型 ， 分 别 为 中 断 、 准 同步 、 批 量 和 控制 ， 如 表 9-4 所 示 ， 其 用 于 给 所 
有 类 型 的 USB 设备 提供 服务 。 正 如 早先 讨论 的 那样 ，USB 设备 并 不 采用 中 断 驱 动 传 输 机 制 ， 
相反 ， 其 使 用 中 断 包 来 轮 询 如 键盘 、 鼠 标 等 在 旧式 计算 机 中 采用 中 断 驱动 传输 机 制 的 USB 
设备 。 在 这 种 情况 下 ， 一 个 设备 ， 如 键盘 ， 在 轮 询 到 该 设备 但 其 无 需 发 送 任何 扫描 码 时 ， 设 
备 将 发 送 一 个 NACK 握手 包 。 | 

实时 USB 设备 ， 例 如 数字 电话 ， 必 须 保 证 其 可 以 发 送 或 接收 数据 ， 当 扬声器 正在 使 用 
时 ， 其 必须 不 被 中 断 从 而 频繁 接收 数据 。 这 些 设备 使 用 同步 传输 ， 相 应 的 事务 包含 令 牌 包 和 
数据 包 ， 但 没有 握手 包 ， 这 些 事务 的 数据 不 会 进行 重 传 。 数 据 块 传输 应 用 于 诸如 打印 机 、 传 
真 机 、 扫 描 仪 和 绘图 机 等 需要 精确 数据 传输 并 可 在 传输 数据 时 接受 中 断 的 设备 。 控 制 传输 在 
设备 或 集线器 配置 时 使 用 。 

多 个 设备 可 使 用 一 个 主 控制 器 接口 来 发 送 或 接收 数据 。 然 而 ， 一 个 设备 并 不 允许 连续 不 
断 地 进行 通信 ， 因 为 这 会 导致 其 他 设备 产生 饥饿 现象 ， 影 响 其 他 设备 的 正常 运转 。 例 如 ， 考 
BE 9-18 中 的 系统 ， 假 定 用 户 在 使 用 扬声器 听 歌 时 还 希望 打印 一 个 文件 ， 打 印 机 和 扬声器 
必须 共享 主 控制 器 来 分 别 接收 打印 数据 和 音乐 数据 。 如 果 主 控制 器 接口 允许 一 段 时 间 连 续 不 
断 地 传输 打印 数据 ， 音 乐 数据 的 传输 将 被 中 断 ， 导 致 音频 质量 很 差 。 相 似 的 ， 如 果 主 控制 器 
人 允许 连续 不 断 地 传输 音乐 数据 ， 打 印 工作 可 能 无 法 完成 。 在 另 一 个 场景 中 ， 用 户 可 能 编辑 一 
份 文档 ， 同 时 打印 机 打印 数据 并 且 扬 声 器 播放 音乐 。 在 这 种 情况 下 ,键盘 和 鼠标 也 必须 可 以 
及 时 和 系统 进行 通信 。 


9.8.4 HIE 


FA USB 主 控制 器 接口 实现 一 个 或 多 个 接 入 点 ， 每 个 接 人 点 也 称 作 终端 。 每 个 终端 包 
含 一 系列 可 被 主 控制 器 访问 的 IO 端口 ， 每 个 终端 包含 一 个 描述 符 ， 该 描述 符 被 称 为 终端 描 
述 符 ， 用 于 确定 传输 类 型 一 一 例如 ， 控 制 、 中 断 、 准 同步 或 数据 块 一 一 也 用 于 确定 其 他 需 
求 ， 例 如 在 每 个 数据 包 中 允许 传输 的 最 大 数据 量 。 控 制 、 中 断 和 数据 块 传输 的 最 大 数据 包 
为 64B， 男 一 方面 ， 同 步 传 输 使 用 更 大 的 数据 包 进 行 传输 (例如 ， Æ USB 2.0 中 为 1024B ) 。 
SUB 集线器 控制 器 实现 状态 更 改 端点 ， 其 每 255ms 轮 询 一 次 ， 来 检测 可 能 发 生 的 端口 事件 ， 
例如 从 USB 端口 连接 或 断 开 连接 等 。 

一 个 设备 可 以 包含 多 种 类 型 的 终端 从 而 可 实现 不 同 种 类 的 接口 。 例 如 ，USB CD-ROM 
驱动 器 可 实现 3 种 不 同 的 接口 : 供 读 写 文件 的 大 数据 存储 接口 ， 处 理 音乐 的 音频 接口 ， 处 理 
视频 镜像 的 视频 接口 。 在 每 个 USB 设备 中 的 接口 包含 一 个 接口 描述 符 ， 其 包含 多 个 终端 描 
述 符 。 接 口 描述 符 是 配置 描述 符 的 一 部 分 ， 配 置 描述 符 包含 多 种 配置 ， 包 括 例 如 当 系 统 电 池 
供电 时 的 低 功率 配置 。 所 有 这 些 描述 符 都 是 在 一 个 层次 结构 中 组 织 起 来 的 ， 并 且 包 含 在 一 个 
设备 描述 符 中 ， 设 备 描述 符 也 包含 设备 信息 ， 例 如 制造 商 名 称 和 序列 号 。 每 当 集 线 器 轮 询 检 
测 到 有 新 的 即 插 即 用 设备 时 ，USB 驱动 将 访问 设备 描述 符 。 描 述 符 包含 所 有 必需 的 设备 信 
息 ， 包 含 一 系列 在 设备 内 的 IO 端口 相对 地 址 和 设备 传输 数据 的 传输 类 型 。 驱 动 将 给 该 设备 
分 配 一 个 唯一 的 地 址 并 配置 该 终端 。 


9.8.5 ti 
USB 主 控制 器 接口 设计 用 来 服务 当前 与 系统 连接 并 活跃 的 所 有 设备 ， 其 每 隔 一 定时 间 
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发 送 和 接收 的 包 被 称 为 帧 。 例 如 ，USB 1.x 使 用 lms (毫秒 ) Wi, USB 2.0 使 用 125ps〔( 微 秒 ) 
帧 ， 被 称 为 微 帧 ， 对 于 USB 1.x 的 全 速 设备 ， 每 帧 为 12 000bit ( 12Mbit/s * 1 ms = 12 000bit) 
K; 对 于 USB 2.0， 一 个 微 帧 为 60 000bit ( 480 Mbit/s * 125 u s = 60 000bit) 长 。 

假定 图 9-18 中 的 系统 使 用 单个 USB 主 控制 器 接口 ， 图 9-28 说 明了 一 个 USB 1.x 主 控 
制 器 可 能 的 帧 内 容 。 在 图 中 ， 每 个 帧 包含 对 多 个 事务 的 包 ， 并 以 SOF 事务 开始 。 例 如 ， 考 
虑 以 下 场景 ， 用 户 同时 使 用 数字 电话 通信 、 编 辑 文档 、 听 音乐 、 打 印 文档 、 发 送 或 接收 传真 
ME flash 存储 器 。 在 这 种 情况 下 ， 帧 内 容 将 包含 处 理 下 列 事务 的 数据 包 : 

两 个 与 数字 电话 相关 的 同步 音频 IN 和 OUT 事务 。 

一 个 与 扬声器 相关 的 准 同 步 立 体 声音 频 事 务 。 

一 个 与 键盘 相关 的 中 断 IN 事务 。 

一 个 与 鼠标 相关 的 中 断 IN 事务 。 

零 个 或 多 个 与 集线器 相关 的 控制 事务 。 

如 果 可 能 ， 一 个 与 打印 机 、 传 真 机 和 flash 存储 器 相关 的 数据 块 OUT 事务 。 

与 中 断 、 准 同步 、 控 制 传输 相关 的 数据 包 具 有 较 高 的 优先 级 ， 其 首先 加 入 每 个 帧 中 ， 只 

有 剩余 足够 的 带宽 时 ， 才 会 将 数据 块 传输 相关 的 数据 包 加 入 每 个 帧 中 。 
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9-28 在 一 个 帧 中 的 USB 传输 ， 对 于 USB 1.x 帧 持续 时 间 为 1ms[4] 


总 体 而 言 ， 除 了 那些 需要 中 断 传输 或 同步 传输 的 设备 ， 其 他 设备 并 不 是 在 每 个 帧 中 都 有 
数据 包 。 一 般 情况 下 ， 帧 带宽 的 90% 将 被 保留 以 供 中 断 传输 或 同步 传输 ，10% 用 于 控制 传 
输 ，0% 的 帧 带宽 用 于 数据 块 传输 。 任 何 时 间 发 生 中 断 传输 或 同步 传输 时 ， 数 据 块 传输 将 不 
被 允许 ， 这 将 导致 使 用 数据 块 传输 的 设备 运转 出 现 短 时 间 的 停顿 。 此 外 ， 当 出 现 一 个 新 的 附 
加 设备 时 ， 若 其 传输 类 型 需要 比 当 前 存在 设备 可 能 的 带宽 还 大 时 ， 该 设备 将 不 会 被 配置 。 

USB 2.0 主 控制 器 使 用 分 离 事务 来 与 通过 高 速 集线器 与 控制 器 接口 相连 接 的 低速 设备 或 
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全 速 设 备 进 行 通信 。 在 这 种 情况 下 ， 一 个 低速 OUT 事务 或 全 速 OUT 事务 将 被 分 离 为 多 个 
Start-split (SS) 微 帧 事务 。SS 事务 中 的 数据 将 被 存储 在 高 速 集 线 器 中 的 缓冲 器 中 ， 再 发 送 
给 低速 设备 或 全 速 设备 。 一 旦 一 个 目标 低速 设备 或 全 速 设备 接收 到 一 个 IN 请 求 ， 其 使 用 更 
低 的 数据 包 传输 速率 ( 1.5Mbit/s 或 12Mbit/s) 来 传输 数据 到 高 速 集 线 器 ， 高 速 集线器 接收 到 
数据 并 放置 其 到 输入 缓冲 器 中 。 在 缓冲 器 中 的 数据 之 后 通过 被 称 为 complete split (CS) 的 
事务 传输 给 USB 2.0 主 控制 器 。 


9. 8. 6 事务 组 织 结构 


每 个 USB 设备 都 有 一 个 驱动 例 程 ， 该 例 程 被 称 为 客户 端 驱动 ， 其 通过 两 个 主机 软件 
(USB 驱动 和 USB 主 控制 器 驱动 ) 来 与 设备 通信 。 客 户 端 驱动 明确 与 设备 通信 的 内 容 ， 并 
向 USB 驱动 发 起 请 求 。 每 个 客户 端 将 申请 供与 设备 通信 相关 数据 存储 的 存储 器 空间 。 例 如 ， 

一 个 USB 键盘 (客户 端 ) 驱动 发 起 一 个 中 断 传输 请 求 并 提供 一 个 供 键盘 数据 (扫描 码 ) 存储 
HY FF ae HS USB 驱动 将 每 个 客户 端 请 求 转换 为 一 个 或 多 个 USB 事务 描述 符 (TD)。 每 
个 TD 是 一 个 数据 结构 ， 其 包含 与 传输 、 与 下 个 TD 相连 和 保存 客户 端 IN 或 OUT 的 数据 的 
存储 器 空间 等 相关 的 必要 信息 。 

活跃 的 客户 端的 所 有 TD 将 被 分 组 并 在 存储 器 中 组 织 成 TD 的 一 系列 链表 。 在 USB 2.0 
中 的 控制 TD 和 数据 块 TD 将 被 组 织 在 一 起 ， 而 中 断 TD 和 同步 TD 将 被 组 织 在 一 起 ， 如 图 
9-29 ray, Pit TD 和 同步 TD 以 链表 数组 的 方式 组 织 起 来 并 周期 性 地 进行 处 理 ， 另 一 方面 
控制 TD ， 图 中 为 qTD， 以 链表 队列 的 方式 组 织 起 来 并 不 定时 间 来 处 理 。 每 个 iTD 链表 在 一 
个 125 ws 微 帧 内 执行 。 当 数组 中 没有 未 执行 的 iTD 时 ，qTD 将 被 执行 。 


存储 器 
eS 中 断 和 同步 TD 链表 


N = 1024, 
512, 或 256 










时 钟 
480MHz 


32 位 物理 存储 器 字 地 址 
(a31....a2) 





: 控制 和 数据 块 TD 
9-29 ”存储 器 中 USB 2.0 事务 组 织 结构 [4] 
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USB 驱动 通过 USB 主 控制 器 驱动 存储 数组 的 起 始 地 址 和 队列 的 头 到 USB 主 控制 器 接 
口中 。USB 主 控制 器 使 用 两 个 计数 器 来 执行 iTD， 如 图 所 示 。 计 数 器 1 以 480MHz 时 钟 模 
60 000 方式 计数 ， 计 数 器 2 保持 当前 帧 数 并 用 作 数 组 的 索引 。 计 数 器 2 每 125us 增加 一 次 。 
数组 的 大 小 是 可 编程 的 ， 可 存储 1024, 512 或 256 个 元 素 。 数 组 的 基地 址 存储 在 一 个 称 为 周 
期 链表 基地 址 的 寄存 器 中 ， 其 与 计数 器 2 相连 来 确定 下 一 个 事务 在 存储 器 中 的 位 置 。 异 步 链 
表 基 地 址 指向 存储 器 中 链表 队列 的 头 ， 如 图 所 示 。 

每 当 计 数 器 2 增加 时 ， 将 执行 一 次 SOF 事务 ， 其 通知 所 有 使 用 同步 传输 的 设备 对 其 活 
动 进行 同步 。 如 果 一 个 TD (iTD 或 qTD) 描述 了 一 个 OUT 事务 ， 主 控制 器 将 从 主 存储 器 中 
获取 其 令 牌 和 数据 包 并 将 其 传输 到 目标 终端 。 如 果 终 端 采用 中 断 、 控 制 或 数据 块 传输 ， 控 制 
器 将 从 终端 接收 到 一 个 握手 包 。 正 如 早先 说 明 的 那样 ， 同 步 传 输 不 需要 握手 包 。 

如 果 一 个 TD 是 一 个 IN 事务 并 标明 其 是 中 断 、 控 制 或 数据 块 传输 ， 主 控制 器 将 从 存储 
器 中 获取 TD 的 令 牌 包 和 握手 包 ， 并 传输 令 牌 包 到 目标 终端 。 当 控制 器 接收 到 来 自 终 端的 数 
据 包 时 ， 知 接收 的 数据 没有 错误 ， 控 制 器 将 回 终 端 传输 一 个 握手 包 。 


9.8.7 事务 执行 


和 其 他 DCI (如 图 9-17) FA, USB 主 控制 器 接口 包含 了 一 系列 CPU MER HA Ck 
ARAB) 访问 相关 的 VO 端口 ， 如 图 9-30 中 关于 USB 2.0 的 主 控制 器 接口 。 没 有 设备 数据 
是 通过 IO 端口 直接 与 CPU 进行 通信 的 ; 端口 只 用 于 配置 和 建立 主 控制 器 。 表 9-7 列 出 了 
一 系列 USB 2.0 主 IO 端口 ， 其 被 称 为 USB 操作 寄存 器 。 这 些 寄存 器 用 于 设置 帧 数组 的 大 
小 为 1024、512 BK 256, “PAT CPU 的 频率 等 ， 并 根据 微 帧 的 数量 指定 中 断 频率 。 微 帧 数量 
可 参考 给 定 的 中 断 阅 值 来 确定 为 1、2、4、8、16、32 或 64 微 帧 。 
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9-30 单 端 口 USB 2.0 EHCI 框图 [6] 


表 9-7 USB 2.0 操作 寄存 器 (如 1/O 端口 ) 列表 
寄存 器 描 述 

USB 基 址 寄存 器 | ”维持 一 个 基 址 寄存 器 以 供 存 储 器 对 主 控制 器 接口 内 的 IO 端口 进行 映射 
用 于 配置 主 控制 器 接口 。 配 置 如 中 断 间 隔 (如 每 个 微 帧 、 每 两 个 微 帧 、 每 4 个 微 帧 等 )、 开 
USB 命令 寄存 器 | 始 或 关闭 周期 性 的 或 异步 的 TD 链表 处 理 、 初 始 化 帧 数组 大 小 ( 1024、512 或 256 )、 主 控制 器 

接口 复位 、 运 行 位 或 停止 位 等 

包含 周期 的 和 异步 的 使 能 /禁用 位 、 主 控制 器 接口 停止 /运行 状态 位 、USB 错误 中 断 位 、 
USB 状态 寄存 器 | USB 中 断 位 (如果 中 断 完 成 (IOC ) 位 在 TD 中 被 设置 ， 该 位 将 变 为 1 )、 异 步 中 断 状态 位 C 

主 控制 器 接口 增加 队列 指针 时 ， 其 将 被 设置 ) 等 表示 USB 信息 的 状态 位 
开启 多 个 中 断 ， 常 用 的 有 开启 异步 链表 中 断 ， 使 得 USB 驱动 可 知道 当前 队列 状态 ; 使 能 错 


USB 中 断 使 能 误 中 断 等 
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( BE ) 
寄存 器 描 述 

USB 帧 索引 保存 一 个 与 帧 数组 相关 的 地 址 (索引 )， 每 125 ps 增加 一 次 。 其 表明 图 9-29 中 帧 数组 的 大 小 
周期 链表 基地 址 帧 数组 的 基地 址 。 其 与 帧 索引 一 起 确定 帧 数组 在 主 存储 器 中 的 地 址 
异步 链表 地 址 指向 队列 头 的 指针 (图 9-29 ) 

用 于 配置 USB 端口 。 如 开局 wake-on-connect 和 wake-on-disconnect 位 ， 用 于 检测 低速 、 全 
端口 状态 和 控制 | 速 、 高 速 设备 连接 的 线路 状态 (D+ 和 DD -); 当前 端口 连接 状态 (如 1 表示 设备 连接 ，0 表示 

设备 断 开 ) 等 


Blt, WPA BAe 2 个 微 帧 一 次 ， 主 控制 器 将 在 2 个 微 帧 内 先 执 行 所 有 的 
TD (iTD 和 qTD)， 其 中 先 执行 iTD。 如 果 interrupt-on-complete (IOC) 位 在 一 个 或 多 个 TD 
中 被 设置 ， 主 控制 器 将 在 第 二 个 微 帧 未 向 CPU 发 出 请 求 来 中 断 CPU。 作 为 主 控制 器 接口 配 
置 的 一 部 分 ，CPU 可 能 选择 开启 或 关闭 TD 的 执行 。 

当 处 理 器 完全 配置 好 主 控制 器 接口 时 ， 其 将 设 
相似 一 一 该 位 在 USB 命令 寄存 器 中 ， 设 置 该 位 将 开始 主 控制 器 并 开始 TD 的 执行 。 先 进 先 
出 存储 器 缓冲 器 是 用 于 在 数据 传输 前 存储 输出 的 数据 包 ， 也 用 于 在 数据 发 送 给 主 存储 器 前 存 
储 从 设备 接收 到 的 数据 。 在 这 种 情况 下 ， 存 储 器 控制 器 将 负责 生成 存储 器 地 址 以 获取 TD, 
从 /到 主 存储 器 中 读 或 写 终端 数据 ， 向 主 存储 器 写 状态 数据 。 例 如 ， 在 图 9-30 中 ，DMA-1 
用 于 从 主 存 储 器 中 获取 TD ， 存 储 TD 到 链表 处 理 器 内 部 的 RAM 中 ， 也 用 于 获取 其 输出 到 
终端 的 数据 ， 通 过 DMA-2 将 数据 存储 到 FIFO 缓冲 器 中 。DMA-2 用 于 从 FIFO 缓冲 器 中 接 
收 终端 输入 的 数据 ， 并 通过 DMA-1 传输 到 主 存储 器 中 。 

DMA 控制 器 用 于 当前 的 处 理 任 务 ， 其 提升 了 在 主 控制 器 接口 的 数据 输入 输出 速度 。 包 
含 一 系列 配置 寄存 器 的 根 集线器 负责 端口 的 管理 ， 例 如 端口 复位 、 唤 醒 等 工作 ， 也 检查 端口 
连接 或 连接 断 开 。 接 口 引 擎 (IE) 负责 NRZI 数据 编码 和 译 码 、 令 牌 构建 等 工作 。 
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练习 
9.1 考虑 一 个 FSB， 其 连接 了 4 个 1GHz 处 理 器 和 一 个 共享 的 存储 器 单元 ， 生 成 一 个 UMA RH., B 
定 指令 中 10% 是 写 数据 到 存储 器 的 “ST” 指 令 ， 完 成 以 下 : 
a. 假设 CPI 为 1， 每 次 写 4B， 确 定 4 个 处 理 器 写 数据 要 求 的 存储 器 写 带宽 。 
b. 考虑 存储 器 也 需要 提供 指令 和 数据 给 处 理 器 ， 确 定 达 到 (a) 中 两 倍 带 宽 所 需 的 FSB 的 时 钟 频 
率 ， 假 设 FSB 运行 与 SDRAM 总 线 相 似 ， 突 发 大 小 为 1，32 位 数据 总 线 。 
c. 假设 存储 器 控制 器 操作 一 个 32 位 400MHz 的 SDRAM 存储 器 单元 ， 确 定 达 到 峰值 性 能 的 存储 
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器 组 织 结构 ， 其 中 每 个 FSB 时 钟 周期 传输 4B。 
研究 Intel 的 快速 通路 链接 并 以 此 写 一 个 短 论文 。 
研究 AMD 的 超 传 输 通 道 并 以 此 写 一 个 短 论文 。 | 
绘制 一 个 含有 6 个 节点 9 个 串 行 链 路 的 NUMA 结构 图 ， 其 中 每 个 处 理 器 与 其 他 处 理 器 之 间 不 超 
过 2 条 串 行 链 路 。 
考虑 一 个 采用 串 行内 部 互 连 的 4 处 理 器 NUMA 结构 与 一 个 基于 总 线 的 4 处 理 器 UMA 系统 。 回 
答 以 下 问题 : 

a. 比较 串 行 链 路 与 总 线 互 连 的 优 劣 。 

b. 当 处 理 器 数量 增加 时 ， 比 较 NUMA 与 UMA 架构 的 优 劣 。 

考虑 图 9-6 中 的 存储 器 控制 器 。 假 设 SRAM 读 写 访问 时 间 为 4ns，CPU 总 线 时 钟 频率 为 0.5ns， 
其 需要 一 个 时 钟 来 检测 到 ack = 1， 并 且 需 要 1 个 时 钟 周期 来 完成 存储 器 周期 ， 从 总 线 上 载 人 数据 
到 内 部 寄存 器 并 结束 读 周期 或 移 除 总 线 上 的 数据 并 结束 写 周期 。 假 设 存储 器 读 和 写 的 访问 时 间 相 
同 ， 确 定 计数 器 的 大 小 。 

假设 一 个 新 的 Samsung 磁盘 驱动 器 的 RPM 为 例 9-1 中 的 两 倍 。 确 定 在 存储 器 和 磁盘 驱动 器 间 传 
输 512B 数据 的 时 间 。 

9-10 中 绘制 了 存储 器 映射 的 IO 端口 的 电路 ， 绘 制 一 个 端口 映射 IO 的 电路 。 

考虑 9-12 的 时 序 图 ， 完 成 以 下 : 

a. 简单 解释 为 何 当 sel = 1 且 _wr=0 时 ,输出 端口 将 载 人 总 线 上 的 数据 。 

b. 假设 输出 端口 采用 触发 器 来 设计 。 接 人 和 运行 端口 有 何 区 别 ? 绘制 输出 端口 并 解释 输出 端口 是 

何 时 、 如 何 从 总 线 上 载 人 数据 。 注 意 : 端口 触发 器 并 不 是 以 连续 变化 的 时 钟 信号 来 运转 的 。 

假设 图 9-17 中 的 端口 0 和 端口 1 (4-B 端口 ) 采用 存储 器 映射 TO， 端 口 地 址 为 0x60 和 0x64。 

为 两 个 端口 设计 地 址 译 码 电路 。 为 了 简单 起 见 ， 假 设 地 址 总 线 宽度 为 8 位 。 

解释 为 何 一 个 处 理 包 含 DMA 传输 信息 的 数据 结构 的 现代 DMA 控制 器 比 图 9-20 中 的 简单 DMA 

控制 器 要 好 ， 并 说 明 现代 控制 器 是 如 何 影响 系统 性 能 的 。 

解释 为 何 当 CPU 接收 到 一 个 比 当 前 执行 的 中 断 处 理 程序 (IVc) 小 于 或 等 于 的 IV (IVr) 时 ， 

CPU 将 忽略 IVr 直到 IVr>IVc。 

假设 一 个 NAND 门 延迟 是 0.1ns， 一 个 三 态 缓冲 器 延迟 为 0.2ns， 估 计 一 个 从 16 节点 的 菊花 链 

式 中 断 结 构 的 TV 放置 到 总 线 前 的 最 坏 时 间 延 迟 。 . 

Sparc CPU 实现 了 8 窗口 的 寄存 器 窗口 ， 其 指 的 是 CPU 数据 通路 包含 所 有 用 户 可 访问 的 寄存 器 

的 8 个 副本 。 例 如 ， 图 9-26 中 的 ACC、X 和 SR 是 用 户 可 访问 的 寄存 器 。 对 于 一 个 寄存 器 窗口 ， 

当 有 子 程序 调用 或 中 断 发 生 时 ， 当 前 执行 程序 的 状态 将 被 保存 在 CPU 中 而 不 是 存储 器 中 。 完 成 

以 下 : 

a. 假设 图 9-26 中 的 CPU 含有 4 个 寄存 器 窗口 ， 解 释 寄 存 器 窗口 是 如 何 给 等 待 设备 提升 服务 的 。 

b. 假设 图 9-26 中 使 用 ACC、X 和 SR 寄存 器 的 4 个 副本 从 而 产生 大 小 为 4 的 寄存 器 窗口 。 并 假 
设 对 于 窗口 0 这些 寄存 器 命名 为 ACC0、X0 和 SR0， 对 于 窗口 1 这 些 寄存 器 命名 为 ACC1、 
X1 和 SR1 等 。 当 发 生 中 断 时 ， 当 前 执行 的 下 一 条 指令 需要 使 用 一 个 寄存 器 ， 例 如， 窗口 1 中 
的 某 个 寄存 器 。 例 如 ， 当 IH 中 的 指令 “MVSRX2ACC” 执 行 ACC1 + SRX 时 ， 被 中 断 的 程 
序 的 状态 将 依旧 保存 在 窗口 0 中 寄存 器 ACC0、X0 和 SR0 中 。RTI 将 切 回 至 窗口 0， 从 而 被 
中 断 的 程序 可 使 用 窗口 0 中 的 寄存 器 来 恢复 执行 。 设 计 一 个 4 窗口 寄存 器 窗口 电路 并 简单 描 
述 其 是 如 何 切换 窗口 的 。 
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c. 讨论 如 何 扩展 (b) 中 的 寄存 器 窗口 使 之 可 通过 ACC 传输 单个 参数 给 子 程序 从 而 支持 子 程序 
调用 。 并 且说 明 当 有 多 级 子 程序 调用 时 如 果 运 行 。 
d. 寄存 器 窗口 提供 了 特定 的 优势 ， 假 设 CPU 有 8 个 寄存 器 窗口 。 程 序 员 可 如 何 利用 寄存 器 窗口 
的 优势 ? 
e. 研究 Sparc 处 理 器 如 何 使 用 重复 的 寄存 器 窗口 来 传输 参数 ， 并 以 此 写 一 篇 论文 
9.15 ”简单 说 明 为 何 USB 主 控制 器 需 将 数据 包 封 装 成 定期 从 设备 传输 或 传输 到 设备 的 帧 。 
9.16 简单 说 明 为 何 图 9-29 中 的 iTD 要 在 qTD 前 处 理 。 
9.17 简单 说 明 为 何 图 9-30 中 的 DMA-1 和 DMA-2 是 必需 的 。 
9.18 简单 说 明 在 USB 主 控制 器 接口 内 部 中 将 异步 链表 提前 中 断 的 目的 。( 提 示 : 现代 DMA 控制 器 如 
何 工 作 。) 
计算 机 安全 3 m 
9.19 计算 机 安全 (安全 中 断 ) : 见 练习 11.36， 当 中 断 返 回 时 关于 检测 寄存 器 欺骗、 拼接 或 重 放 攻 击 | ， 
(也 可 参见 11.11.9 节 )。 425 
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仔 储 系统 


10.1 简介 


统一 内 存 访问 (UMA) 和 非 统 一 内 存 访问 (NUMA) 系统 的 性 能 都 由 延迟 决定 。 对 包括 
存储 器 延迟 在 内 的 任何 延迟 上 的 改进 都 会 增 大 系统 的 带宽 。CPU (处 理 中 心 ) 处 于 空闲 状态 
的 时 间 越 入， 执行 程序 所 需 的 时 钟 周期 数 就 会 增加 ， 从 而 降低 了 指令 的 吞吐 率 。 此 外 ， 系 统 
用 来 存储 程序 和 数据 的 非 易 失 性 存储 和 主 存 的 容量 都 必须 足够 大 ， 以 便 使 它 能 并 发 地 运行 系 
统 和 和 应 用 程序 。 这 意味 着 存储 器 必须 具有 成 本 效益 。 然 而 ， 当 前 还 没有 任何 可 用 的 技术 能 
被 用 来 制造 低 延 迟 、 大 容量 以 及 低 价位 的 存储 器 。 

现今 普遍 使 用 的 存储 器 技术 是 静态 随机 存 取 存 储 器 (SRAM)、 同 步 动态 随机 存 取 存 储 
器 (SDRAM)、 磁 性 存储 器 和 闪存 。SRAM 技术 最 快 ， 但 也 是 最 昂贵 的 ， 因 此 被 用 作 处 理 需 
中 的 cache. SDRAM 技术 比较 便宜 但 也 相对 较 慢 ， 需 要 的 访问 时 间 大 约 为 100 个 CPU 周期 。 
磁性 存储 器 和 闪存 是 非 易 失 性 的 并 且 也 是 最 便宜 的 ， 但 是 它们 速度 最 慢 ， 而 且 需 要 近乎 毫秒 
级 的 访问 时 间 ， 大 约 比 CPU 慢 1 000 000 倍 。 

然而 ， 因 为 程序 包含 循环 ， 而 且 数 据 通常 都 是 从 存储 器 中 顺序 访问 的 。 因 此 ， 通 过 结合 
各 种 技术 ， 如 图 10-1 所 示 分 层 组 织 ， 最 慢 存 储 器 在 底部 ， 最 快 存 储 器 在 顶部 ， 才 能 创建 一 
个 减 小 平均 延迟 、 降 低 花 费 并 拥有 大 存储 容量 的 存储 系统 。 注 意 ， 在 第 8 章 作 为 CPU 数据 
通路 的 一 部 分 被 引入 的 指令 存储 器 (IM) 和 数据 存储 器 (DM) 被 重新 标记 为 指令 缓存 (Ic) 
和 数据 cache (Dc). 


单 核 处 理 器 


最 快 存储 器 : 1 级 
块 传输 (如 8B) 
2 级 





块 传输 (如 ,32B) 


页 传输 (如 4KB) 


最 慢 存 储 器 : 


非 易 失 性 存储 器 


硬盘 或 闪存 驱动 器 
10-1 一 个 4 级 存储 器 分 层 的 存储 系统 


其 他 存储 系统 的 设计 目标 可 能 包括 低能 耗 、 高 可 靠 度 和 小 型 号 。 低 能 耗 和 小 型 号 的 需求 
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对 于 手持 设备 尤其 重要 。 

在 数据 被 CPU 访问 之 前 ， 它 从 存储 器 层级 的 最 底层 被 复制 到 上 一 层 ， 直 到 最 高 层 为 止 。 
此 外 ， 多 个 数据 项 (作为 一 个 块 或 一 页 ) 在 层级 之 间 相 互 复制 。 而 且 ， 只 要 数据 在 主 存储 器 
中 ，CPU 将 会 等 待 接收 数据 。 正 如 我 们 在 10.4 节 所 见 ， 如 果 CPU 请 求 的 指令 或 数据 不 在 主 
存储 器 中 ， 程 序 将 停止 运行 。 

当 程 序 运行 时 ， 修 改过 的 数据 从 存储 器 层级 的 较 高 层 被 复制 到 较 低 层 ， 从 而 创建 空间 
或 在 必要 时 通知 低层 存储 器 这 些 改变 。 这 就 会 造成 同一 个 数据 在 不 同 两 个 存储 器 中 的 两 个 副 
本 可 能 不 相同 的 情形 。 例 如 ， 考 虑 在 图 10-1 中 ， 存 储 器 地 址 X 处 的 一 个 数据 项 从 主 存 被 复 
制 到 2 级 (L2) cache. FER CPU 访问 之 前 ， 数 据 接着 从 L2 cache 被 复制 到 1 级 (L1) 数据 
cache。 现 在 假设 CPU 在 操作 完 该 数据 项 后 写 了 一 个 新 值 到 L1 cache 中 ， 改 变 了 副本 ， 在 
cache 中 用 (X) ' 表示。L1 cache 中 该 数据 项 的 副本 现在 则 与 仍然 储存 在 L2 cache 和 主 存 中 
的 副本 不 同 了 。 

此 时 此 刻 ， 假设 操作 系统 ( OS) 命令 直接 内 存 访 问 (DMA) 控制 器 从 主 存 中 传输 包括 
地 址 X 处 的 数据 在 内 的 数据 到 硬盘 中 。 显 然 ， 应 该 被 复制 到 硬盘 中 的 数据 项 必然 是 处 于 Ll 
cache 中 那个 改变 过 的 数据 项 。 同 样 在 男 一 个 场景 中 ，OS 可 能 会 命令 DMA 控制 器 用 硬盘 上 
的 副本 更 新 主 存 ， 包 括 地 址 X 处 的 内 容 。 这 次 ， 主 存 中 的 副本 会 是 最 新 、 有 效 的 ， 而 两 级 
cache 中 的 副本 则 是 旧 的 、 无 效 的 。 因 此 ， 为 了 防止 陈旧 数据 被 保存 在 硬盘 上 或 被 CPU 访 
问 ， 必 须 实现 某 些 在 存储 器 层级 之 间 的 数据 一 致 性 协议 。 

此 外 ， 由 于 与 非 易 失 性 存储 器 《硬盘 或 闪存 驱动 硕 ) 的 速度 对 比 ， 易 失 性 存储 器 的 访问 
时 间 非 常 少 (最 多 相当 于 100 个 CPU 周期 )， 在 除了 最 低 两 级 之 外 的 存储 器 层级 之 间 复 制 并 
保持 一 致 性 的 任务 要 在 硬件 上 进行 。 在 被 称 为 虚拟 内 存 的 非 易 失 性 存储 器 (例如 硬盘 ) 和 被 
称 为 物理 内 存 的 主 存 之 间 复 制 并 保持 数据 一 臻 性， 需要 在 软件 上 执行 一 些 功能 并 在 硬件 上 进 
行 一 些 操 作 。 虚 拟 内 存 管理 系统 决定 了 物理 内 存 的 何 处 用 来 存储 硬盘 上 一 个 或 多 个 程序 的 代 
码 及 数据 。 

本 章 展示 了 存储 器 层级 的 体系 结构 和 组 织 并 提供 了 可 选 的 缓存 组 织 及 一 致 性 协议 。 根 据 
需求 ， 缓 存 可 以 被 设计 为 最 大 限度 地 减少 硬件 和 访问 时 间或 流量 。 还 讨论 了 能 耗 以 及 cache 
组 织 和 系统 性 能 之 间 的 关系 。 

本 章 还 展示 并 用 图 说 明了 虚拟 到 物理 地 址 的 映射 方案 ， 讨 论 了 在 处 理 器 芯片 的 何 处 必须 
实现 这 种 映射 方案 并 给 出 了 可 选 的 解决 方案 。 
存储 器 层次 结构 

在 图 10-1 中 ， 低 成 本 的 非 易 失 性 存储 器 被 用 来 构建 潜在 的 无 限制 存储 器 容量 。DRAM 
技术 、 典 型 的 SDRAM 被 用 来 构建 大 型 主 (物理 ) F, SRAM 技术 被 用 来 构建 处 理 器 中 小 而 
快 的 缓冲 存储 器 。 

在 程序 执行 过 程 中 ， 程 序 代 码 和 数据 从 非 易 失 性 存储 被 复制 到 主 存 ， 然 后 从 主 存 到 L2 
cache， 接 着 到 两 个 L1 cache。 较 高 层 存 储 器 只 会 保存 低 一 级 存储 器 内 容 的 一 个 小 片段 。 此 
外 ， 由 于 DMA 传输 (第 9 章 ) 和 突 发 存储 器 传输 (第 7 章 ) 更 有 效率 ， 页 面 (例如 ，4KB) 
在 非 易 失 性 存储 和 主 存 中 进行 传输 。 也 被 称 为 cache 块 或 cache 行 的 块 (例如 32B 或 64B) 
在 主 存 和 L2 cache 之 间 传 输 ， 甚 至 更 小 的 cache 行 在 L2 cache 和 每 个 Ll cache 之 间 传 输 。 
指令 cache 行 从 L2 cache 传输 到 Ic， 数 据 cache 行 在 L2 和 De 之 间 传 输 。 


‘cache, 2&## 1 能 够 访问 到 L3 中 的 sum[1]， 
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CPU 中 访问 内 存 的 请 求 ， 若 其 地 址 指向 一 条 指令 则 总 是 首先 到 达 Ic， 大 请 求 数据 则 
先 到 Dc (可 见于 第 8 章 的 图 8-5 )。 如 果 目 标 内 存 块 的 副本 在 Ic 或 Dc 中 ,该 次 访问 称 
为 cache 命中 。 反 之 ,该 次 访问 叫 作 cache 缺失 ， 然 后 请 求 被 Ic De 转发 到 统一 的 LL2 
cache， 它 同时 包含 指令 和 数据 。 同 样 ， 如 果 块 的 副本 在 L2 cache 中 ， 则 该 次 访问 称 为 cache 
mP, BURA cache RA. WIRE cache 命中 ， 若 块 的 副本 为 指令 ， 则 L2 cache 将 其 传输 
到 Ic 否则 传输 到 Dec。 另 一 方面 ， 若 该 次 访问 是 cache 缺失 ，L2 cache 将 请 求 发 送 到 主 存 。 

在 现代 计算 机 系统 中 ， 程 序 通常 都 不 是 整个 被 载 人 主 存 中 的 。 反 之 ， 程 序 和 数据 页 面 需 
要 时 才 从 非 易 失 性 存储 里 被 复制 到 主 存 中 。 修 改过 的 数据 页 面 被 写 回 到 非 易 失 性 存储 以 便 释 
放 主 存 空 间 。 然 而 ， 指 令 页 面 若 在 一 段 时 间 内 不 被 引用 并 且 需 要 内 存 空间 则 直接 被 丢弃 。 这 
个 过 程 称 为 页 面 调 度 ， 这 牵涉 到 了 OS， 而 且 需 要 硬件 来 实现 虚拟 内 存 组 织 ，10.4 节 将 会 进 
行 讨 论 。 

特别 地 ， 在 L2 cache 缺失 的 情况 下 ， 如 果 主 存 中 的 一 个 页 面包 含 目 标 指令 或 数据 块 ， 
当前 块 的 副本 会 被 传输 到 L2 cache 中 。 否 则 ， 知 主 存 中 没有 该 页 面 ， 该 请 求 将 会 导致 页 面 
错误 中 断 (第 9 章 )， 程 序 的 执行 将 会 暂停 并 将 控制 权 交 回 给 O0S。 一 且 页 面 被 载 人 主 存 中 ， 
程序 恢复 执行 。 

正如 第 8 章 所 探讨 的 ， 在 cache 缺失 得 到 解决 的 整个 过 程 中 ， 处 理 中 心 (CPU) 处 于 空 
闲 状态 且 不 执行 指令 。 实 现 了 多 线程 技术 的 内 核 可 以 切换 到 另 一 个 不 同 线程 中 执行 指令 。 如 
图 10-2 所 示 ， 现 代 处 理 器 通常 设计 了 3 级 cache 存储 器 。 每 个 处 理 中 心 与 各 自 的 L2 cache 
通信 ， 而 所 有 的 L2 cache 与 共享 的 3 级 四 核 处 理 器 
cache 通信 ， 从 而 在 处 理 器 芯片 中 构建 了 
一 个 UMA 系统 。 共 享 cache 的 优势 在 于 
共享 的 cache 行 能 被 两 个 或 更 多 线程 使 用 ， 
但 也 有 其 缺点 ， 即 某 个 线程 删除 了 另 一 个 
线程 正在 使 用 的 块 。 

例如 ， 考 虑 8.4.4 77 (第 8 章 ) 的 程序 
示例 中 线程 0 和 线程 1。 回 忆 操 作 不 同 数 
组 元 素 的 每 个 线程 ， 线 程 0 计算 得 到 的 和 
为 sum[0]， 线 程 1 得 到 sum[1]。 线 程 1 接 
着 输出 sum[0] + sum[1]。 通 过 共享 的 L3 


|: 指令 缓存 
D: 数 据 缓 存 





节省 了 一 次 主 存 访问 。 总 的 来 说 ， 通 过 L3 图 10-2 一 个 5 级 存储 右 层 级 的 例子 
共享 cache, 不 仅 两 个 交互 线程 的 执行 会 更 快 ， 而 且 执 行 过 程 会 产生 更 少 的 主 存 流量 。Intel 
Xeon-E7-4870 ( Nehalem 结构 ) 处 理 器 含有 10 个 内 核 ， 每 一 个 都 连接 到 一 个 256KB 的 12 
cache， 然 后 连接 到 30MB 的 共享 L3 cache。 该 处 理 器 能 访问 最 大 32GB 的 主 存 空间 。 

存储 器 延迟 

存储 器 层级 减 小 了 平均 延迟 ， 因 为 程序 包含 循环 并 且 数 据 访 问 通 常 都 是 顺序 的 。 考 虑 
图 10-1 所 示 的 存储 器 层级 ， 假 设 主 存 中 的 一 个 块 含有 一 个 小 型 for 循环 指令 。 当 for 循环 
第 一 次 执行 时 ， 获 取 第 一 条 指令 的 请 求 会 导致 一 次 cache 缺失 。 这 个 块 会 从 主 存 复制 到 L2 
cache 然后 到 Ic。 因 此 ， 从 主 存 传输 一 个 块 的 副本 到 Ic 的 延迟 很 长 。 

然而 ， 一旦 该 块 被 载 人 Ic (一 个 较 小 的 SRAM),， 块 中 随后 的 指令 会 更 快 (例如 , 在 1 
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个 CPU 时 钟 周期 内 ) 从 Ic 中 被 获取 。 因 此 ， 这 减少 了 执行 for 循环 的 平均 存储 器 延迟 。 这 
与 当 顺 序 从 主 存 中 访问 数据 时 相同 。 访 问 导 致 缺失 的 块 中 的 第 一 个 数据 项 会 花费 较 长 时 间 ， 
但 从 De (也 是 一 个 较 小 的 SRAM) 中 访问 块 中 随后 的 数据 将 会 更 快 。 

总 之 ,程序 中 每 条 指令 再 次 执行 的 速度 表明 了 程序 中 存在 的 时 间 局 部 性 的 多 少 。 因 为 小 
型 for 循环 中 的 指令 执行 地 很 频繁 ， 一 旦 一 条 指令 执行 了 ， 很 快 会 再 次 执行 (由 于 是 小 型 循 
环 )，for 循环 中 存在 很 高 的 时 间 局 部 性 。 

与 此 类 似 ， 程 序 在 执行 中 数据 结构 元 素 被 访问 的 顺序 表明 了 程序 中 空间 局 部 性 的 多 少 。 
例如 ， 考 虑 一 个 处 理 数组 的 for 循环 。 在 for 循环 执行 期 间 ， 如 果 数 组 元 素 是 从 连续 的 内 存 
地 址 中 访问 的 ， 那 么 从 主 存 中 访问 的 这 些 元 素 之 间 具 有 很 高 的 空间 局 部 性 。 

注意 ， 时 间 局 部 性 也 能 应 用 到 程序 数据 一 一 例如 ， 如 果 在 循环 中 访问 相同 的 数据 元 素 
集 。 同 样 ， 空 间 局 部 性 可 以 应 用 到 程序 指令 。 

cache 命中 根据 导致 命中 的 一 次 访问 的 概率 来 决定 。 例 如 ， 当 执行 一 个 程序 时 ， 如 果 
95% 的 时 间 里 指令 都 在 Ic 中 找到 了 ， 那 么 指令 命中 系数 (也 称 为 命中 率 ) 是 0.95， 使 得 指令 
缺失 系数 (也 称 为 缺失 率 ) Æ 0.05 (1.0 - 0.95 )。 数 据 在 De 中 被 找到 的 频繁 程度 决定 了 程 
序数 据 的 命中 率 和 缺失 率 。L2 A L3 cache 是 统一 的 〈 都 包含 指令 和 数据 )。 因 此 ， 它 们 为 整 
个 程序 提供 命中 率 和 缺失 率 。 命 中 率 的 高 低 决定 于 程序 中 存在 的 时 间 局 部 性 和 空间 局 部 性 的 
多 少 。 

一 个 好 的 程序 员 在 写 程序 时 应 该 多 留心 时 间 和 空间 局 部 性 ， 同 时 在 程序 执行 过 程 中 的 数 
据 的 空间 局 部 性 存在 可 能 的 改进 时 ， 编 译 需 会 重 排 代 码 。 

CREE 考虑 图 10-1 所 示 的 存储 器 层级 。 给 定 下 列 信息 ， 估 算 它 的 平均 存储 器 延迟 。 
同时 假定 了 主 存 带宽 的 峰值 。 

Ic 和 Dc: 延迟 = lns， 命 中 率 = 0.95 (假定 两 个 cache 相同 ) 

L2 cache: cache 行 =32B， 延 迟 =3ns, 命中 率 =0.9 

主 存 : 400MHz 的 SDRAM, 32 位 (4B) 的 数据 总 线 

fe: 为 了 达到 性 能 峰值 ， 忽 略 激 活 行 和 发 布 列 地 址 的 时 间 。 这 将 会 在 当 SDRAM FAR 
访问 多 个 块 的 操作 重 共 时 发 生 。 例 如 ， 考 虑 如 图 7-19 (第 7 章 ) 所 示 的 SDRAM 定时 图 ， 其 
中 大 小 为 4 的 两 次 单独 的 突 发 访问 (每 次 形成 一 个 块 ) 是 从 存储 器 中 顺序 读 取 的 。 在 图 中 ， 
两 个 块 的 第 一 个 数据 项 分 别 标记 为 x 和 y。 注 意 到 存储 器 操作 重 全 了。 在 第 一 个 数据 项 x 被 
访问 之 后 (如 出 现在 数据 总 线 上 )， 每 个 数据 总 线 时 钟 周 期 访问 一 个 新 的 数据 项 。 访 问 数据 
项 )、y+1、?y+2、?y+3 的 总 时 间 相 应 的 只 需要 4 个 数据 总 线 时 钟 周 期 。 如 果 存 储 希 在 每 个 
时 钟 周 期 内 足够 提供 一 个 数据 项 ， 存 储 器 就 运转 于 带宽 峰值 。 正 如 接 下 来 计算 的 ，SDRAM 
能 提供 1.6GB 的 峰值 传输 量 。 因 此 ， 从 主 存 传输 32B 的 块 到 L2 cache 中 将 会 花费 20ns。 

主 存 峰值 带宽 = 400M cycles/sec * 4 B/cycle 
= 1.6GB/s 
主 存 延 次 = 32B/1.6 GB/s 
= 20ns (只 是 传输 时 间 ) 

目标 指令 块 在 Ic cache 中 和 目标 数据 块 在 De cache 中 的 概率 是 95%。 在 5% (100 - 95) 
的 时 间 里 目标 块 不 在 Ll cache (Ic BK Dc) 中， 同时 该 块 在 L2 cache 中 的 概率 是 90%。 最 后 ， 
该 块 不 在 L2 中 的 概率 是 10% ( 100 - 90 )， 此 时 该 块 在 主 存 中 。 正 如 之 前 所 述 ， 如 果 该 块 不 在 
主 存 中 ， 程 序 将 会 停止 执行 ，OS 会 分 配 CPU 去 执行 另 一 个 程序 。 因 此 ， 下 面 所 计算 的 预计 
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平均 存储 器 延迟 不 〈 也 不 应 该 ) 包括 页 面 延 迟 。 然 而 ， 页 面 延 迟 包 含 在 程序 整个 执行 时 间 里 。 
平均 延 识 = (0.95) (lns) + (1 - 0.95) (0.90) (3ns) + (1 — 0.95) (1 — 0.90) (20ns) 
= 0.95ns + 0.135ns + 0.1ns 
= 1.185ns 
注意 到 1.185ns 的 平均 延迟 近乎 相当 于 Ins 延迟 ， 这 是 为 存储 器 层级 中 最 快 的 存储 器 Ll 
cache 所 作 的 假定 。 ns 


10.2 cache 映射 


在 层级 结构 中 从 主 存 开始 的 每 一 个 低层 都 比 其 上 一 层 存 储 器 含有 更 多 的 块 。 因 此 ， 每 个 
缓冲 存储 器 都 必须 实现 一 个 方法 ， 以 便 快 速 验证 被 请 求 的 块 的 副本 是 否 在 cache 里 或 该 副本 
是 否 需 要 被 传输 到 低 一 层 的 存储 器 。 由 于 cache 只 是 一 个 简单 的 快速 临时 存储 空间 ，CPU 发 
出 的 主 存 地 址 被 划分 为 块 地 址 和 偏 移 值 ， 这 能 够 标识 出 块 内 特定 的 字 节 / 字 。 接 下 来 ， 块 地 
址 则 用 于 指定 块 在 cache PHIL, BUA (RAS) 或 索引 。 

考虑 64KB 的 主 存 ，1KB 的 L2 cache 和 8B 的 块 。 找 出 存储 器 块 的 数目 、 
cache 槽 的 数目 、 块 地 址 的 范围 和 覃 地 址 的 范围 。 

解 : 块 的 数量 通过 按照 块 的 大 小 划分 主 存 大 小 得 到 ， 如 下 所 示 : 

主 存 中 块 的 数目 N= 64KB/(8B/block) 
Sa 916/93 
_ 713 


= 8192 & 
cache FHR% A A ARIAT IAS Bl : 
cache 槽 的 数目 玉 = 1KB/( 8B/slot) 
ey 210/93 
=27 
= 128 \# 


如 图 10-3 Bras, 1642 (2'°B = 64KB) 的 主 存 地 址 被 划分 为 13 位 的 块 地 址 和 3 A A he 
移 值 。 块 地 址 的 范围 是 0 ~ 8191， 槽 地 址 的 范围 是 0 ~ 127。 注 意 ， 缓冲 存储 器 只 4 能 保存 主 
存 中 所 有 块 的 1.56% (128/8192 * 100 ) 。 

直接 映射 和 组 相 联 映 射 是 将 块 地 址 映射 为 槽 地 址 所 


普遍 采用 的 两 种 方法 ， 它 们 适用 于 在 层级 结构 中 从 主 存 abate 

开始 的 任意 两 个 相连 的 存储 器 之 间 。 在 直接 映射 的 cache 。。 LEM e. 

中 ， 一 个 块 的 副本 只 能 存储 在 一 个 特定 的 cache WP. FE 13 位 3 位 

组 相 联 映射 的 cache 中 ， 一 个 副本 可 以 存 到 小 型 槽 集合 的 ”图 10-3 ”内存 地 址 由 块 地 址 和 偏 移 
某 个 槽 中 。 直 接 映射 cache 更 简单 、 更 快 、 效 能 更 高 ， 因 值 组 成 ， 每 个 块 假定 为 8B 


为 一 个 副本 只 能 映射 到 一 个 槽 中 。 

在 一 些 应 用 程序 中 ，cache 缺失 会 造成 大 得 多 的 延迟 ， 全 相 联 映射 经 常 被 用 于 此 。 在 这 
种 情况 下 ， 数 据 能 被 存 到 任意 的 cache 槽 中 ， 从 而 达到 更 高 的 命中 率 。 然 而 ,全 相 联 映射 
cache 需要 更 多 硬件 并 且 所 有 槽 可 以 并 行 (同时 ) 查询。 在 接 下 来 的 几 节 里 将 会 详细 讨论 直 
接 映 射 和 组 相 联 映射 cache 组 织 。 在 虚拟 内 存 系 统 的 设计 中 对 全 相 联 映射 cache 的 应 用 将 会 
在 10.4 节 讲 述 。 
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10.2.1 直接 映射 


对 于 直接 映射 cache， 我 们 需要 两 个 信息 来 快速 确定 cache 中 是 否 包含 目标 块 的 副本 。 
一 个 信息 是 通过 计算 模 (Mod) 值得 到 的 槽 地 址 ， 男 一 个 是 通过 整除 法 得 到 的 ， 叫 作 标 记 。 
例如 ， 考 虑 129 和 1153 这 两 个 块 地 址 以 及 一 个 含有 天 = 128 个 权 的 缓冲 存储 促 。 对 于 这 两 
个 块 地 址 ， 相 应 的 槽 和 标记 值 计算 如 下 : 
129 Mod 128 => # 1 
129/128 => 标记 1 
1153 Mod 128 => # 1 
1153/128 => 标记 9 
然而 ， 如 果 天 是 2 KR (例如 , K= 2”")， 映 射 很 简单 而 且 无 需 硬 件 ， 如 公式 (10-1) 和 
公式 (10-2) FA n 位 块 地 址 了 所 示 。 


槽 地 址 =X mod 2” 
= (Xp-1Xn-1°" ° XmXm-1"""X0)2 mod 2” (10-1 ) 
=(Xn1°'%)2 = > Rmi =% 
标记 =X/K 
= (Xp-1Xn-1 °" XmXm-1 "7X ) 272" (10-2 ) 


= 位 = HRC 
进一步 的 推导 如 下 所 示 ， 其 中 块 地 址 和 = 16 M29, (HARA K=8 (2°): 


16 Mod 8 = (10000), Mod 2* = 0 ## = (000), 最低 3 位 

29 Mod 8 = (11101), Mod 2° = 5 # =(101), 最低 3 位 

16/8 = (10000),/8 = 2 标记 =(10), 最 高 2 位 

29 Mod 8 = (11101),/8 = 3 标记 = (11), 最 高 2 位 
cache 组 织 


表 10-1 展示 了 两 个 主 存 地 址 0x408 和 0x240B, 分别 指 向 块 129 的 0 字 节 和 块 1153 的 3 
字 节 。 如 图 10-4 所 示 ， 只 有 一 个 块 (用 地 址 值 表示 ) 的 副本 能 存 到 槽 1 中 。 也 存储 在 cache 
中 的 标记 表示 包含 了 副本 的 槽 中 的 块 地 址 ( 129 或 1153 )。 在 图 中 ,标记 = 9 =( 1001 ) ,表示 
A 1 包含 块 1153 的 副本 。 


表 10-1 使 用 64KB 主 存 、1KB L2 cache 和 8B 块 的 直接 映射 cache 示例 


内 存 地 址 块 地 址 标记 AiE HE 偏 移 值 目标 字 节 
地 址 (十 六 进 制 )| 划分 为 标记 、 模 和 偏 移 值 的 地 址 | (十 进 制 ) | (十 进 制 ) | (十 进 制 ) | (十 进 制 ) 


408 000001, 0000001, 000 | 129 | 1 | 1 | 0 fsotrBo 
240B | 001001, 0000001, 011 | 1153 | 9 | 1 | 3 Slot 1: BS 


cache 中 每 个 槽 还 存储 了 额外 的 表明 块 副 本 状态 的 位 。 这 些 位 被 用 来 实现 cache 一 致 性 协 
议 ， 以 保证 陈旧 数据 不 被 送 到 CPU 或 存 到 硬盘 。 这 些 位 如 图 中 的 cache 一 致 性 位 (CCB) 所 示 。 
图 10-5 说 明了 在 图 10-4 中 逻辑 显示 的 直接 映射 cache 的 数据 通路 。 数 据 通路 由 1 个 
128 项 的 标记 存储 器 和 一 个 128 项 的 行 存储 器 组 成 。cache 的 容量 最 大 能 存储 128 个 块 。 使 
用 槽 地 址 能 同时 访问 到 标记 存储 器 和 行 存储 器 。 传 人 的 标记 会 与 标记 存储 器 中 存储 的 标记 进 
行 比 较 。 如 果 两 个 标记 匹配 ， 则 cache 访问 命中 ， 否 则 为 缺失 。 出 于 性 能 考虑 ， 当 传人 的 标 
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记 与 cache 中 存储 的 标记 比较 时 ， 由 多 路 复 用 器 找 出 目标 字 节 (或 字 )。 如 图 所 示 ， 若 cache 
访问 命中 ， 该 字 节 在 一 个 读 周 期 内 被 送 到 CPU (假设 只 有 一 个 Ll cache)。 若 访问 为 缺失 ， 
则 cache 控制 右 被 触发 以 便 从 与 之 相连 的 低层 存储 器 里 访问 该 块 。 程 序 的 执行 会 暂停 ， 直 到 
cache 缺失 得 到 解决 。 ~ 


字 节 地 址 CCB ”标记 47 。” 槽 地 址 
0 








低层 存储 器 cache CCB: cache 一 致 性 状态 位 
10-4 一 个 图 示 了 块 129 和 1153 映射 到 槽 1 的 直接 映射 cache 的 逻辑 视图 ， 块 1153 复制 
SHE 1 的 过 程 也 予以 了 展示 。 内 存 地 址 0x408 和 0x240B 指向 每 个 块 中 的 一 个 字 节 


控制 总 线 
数据 总 线 
地 址 总 线 : mie. A, ABE z 


标记 存储 器 
cache 缺 失 
8B cache 行 J 
< 村- 一 一 一 一 一 一 一 一 一 一 化- 
一 cache 


行 存 储 器 (1KB) 
10-5 用 128 个 槽 和 8B 块 说 明 cache 读 取 过 程 的 直接 映射 cache 数据 通路 
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10.2.2 cache 缺失 的 类 型 


KE, cache 缺失 分 为 冷 缺失 、 冲 突 缺 失 、 容 量 缺 失 、 真 共享 缺失 和 伪 共享 缺失 。 下 
面 的 例子 说 明了 冷 缺 失 、 冲 突 缺 失 和 容量 缺失 。 真 和 伪 共 享 缺 失 与 两 个 或 多 个 线程 访问 共享 
数据 块 有 关 ， 这 将 在 10.3 节 讨 论 。 

考虑 图 10-4 所 示 的 直接 映射 cache。 假 定 一 个 L1 cache， 设 定 CPU 按 序 访 
问 下 面 的 内 存 地 址 20 次 。 求 出 这 个 内 存 访问 序列 的 cache 缺失 率 。 另 外 ， 求 出 冷 缺 失 、 容 
量 缺 失 和 冲突 缺失 的 次 数 。 地 址 都 是 16 位 的 ， 按 十 六 进 制 给 出 。 


A. 0x3C10 假定 地 址 指向 内 存 块 Ba 中 的 一 个 字 节 
B. 0x049C 假定 地 址 指 癌 内 存 块 Bb 中 的 一 个 字 节 
C. 0x0410 假定 地 址 指向 内 存 块 Bc 中 的 一 个 字 节 
D. 0xlC8D  ”.: 假定 地 址 指向 内 存 块 Bd 中 的 一 个 字 节 


解 : 我 们 首先 求 出 cache 缺失 的 数量 ， 然 后 用 来 求解 该 内 存 访 问 序列 的 缺失 率 。 从 块 地 
HEER Hot AY BRAY He 10-2 给 出 。 在 第 一 轮 中 ，4 个 内 存 地 址 造成 了 4 次 cache 缺失 。 这 些 
与 块 Ba、Bb 和 Bd 关联 的 缺失 是 冷 缺 失 ， 因 为 这 些 块 被 复制 到 cache 中 的 三 个 初始 为 空 的 
A. Hoh C 也 映射 到 与 地 址 A 相同 的 槽 2。 然而 ， 由 于 这 些 地 址 的 标记 不 同 ， 它 们 指向 主 
存 中 两 个 不 同 的 块 中 的 字 节 。 因 此 , Bo 的 副本 代替 了 槽 2 中 Ba 的 副本 ， 导 致 一 次 冲突 缺失 。 
这 称 为 冲突 缺失 ， 因 为 cache 中 仍然 存在 空 的 槽 ， 但 是 Ba 和 Be 的 副本 必须 存储 到 同一 个 槽 
2 中 。 在 第 一 轮 ， 总 共有 3 次 冷 缺失 和 1 次 冲突 缺失 。 


R 10-2 在 例 10-3 RER 4 个 地 址 的 直接 映射 
第 一 oa CPU 访问 















拷贝 Ba 到 行 2 
拷贝 Bb 到 行 19 

行 2: 冲突 ， HN 
Bc 覆盖 Ba 的 拷贝 
拷贝 Bd 到 行 17 
第 4 到 20 轮 





001111, 0000010, 000 
000001, 0010011, 100 


000001, 0000010, 000 






000111, 0010001, 101 















D 
# 

A 432: 冲突 ,拷贝 Ba 覆盖 Bc 的 拷贝 |M 与 第 二 轮 相同 
B 拷贝 Bb 到 行 19 H 与 第 二 轮 相同 与 第 二 轮 相 同 
C 行 2: 冲突 ,拷贝 Bc 覆盖 Ba 的 拷贝 | M 与 第 二 轮 相同 与 第 二 轮 相同 
D 拷贝 Bd 到 行 17 H 与 第 二 轮 相 同 与 第 二 轮 相同 


在 第 二 轮 ， H Bb 和 Bd 的 副本 已 经 在 cache 中 ,任何 对 这 些 副 本 进行 的 读 / 写 都 会 导致 
cache 命中 。 当 再 次 访问 地 址 A 时 ， 在 第 一 轮 被 Bc 的 副本 替换 掉 的 Ba 的 副本 又 会 替换 掉 块 
Bo 的 副本 ， 这 导致 又 一 次 的 冲突 缺失 。 再 次 访问 地 址 C 又 导致 另 一 次 的 冲突 缺失 ， 并 且 用 
Be 的 副本 替换 掉 槽 2 中 Ba 的 副本 。 在 第 二 轮 ， 不 存在 冷 缺 失 ， 但 有 两 次 冲突 缺失 。 

第 ay / 缺失 的 模式 会 在 剩 下 的 18 轮 里 重复 进行 ， 每 一 轮 都 会 得 到 0 次 冷 缺 失 
和 两 次 冲突 缺失 。 这 4 个 地 址 不 会 造成 任何 容量 缺失 ， 因 为 cache 中 仍然 存在 可 用 的 空 槽 。 
如 公式 (10-3) 的 求解 ， 对 这 4 个 地 址 访问 20 次 ， 总 共 会 造成 42 次 cache MRA, BBR 
失 率 是 52.5% 
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HAW RKR=3 KAGA+1 KH RRA+( 20-1) *2 次 冲突 缺失 / 轮 
= 42 次 总 缺失 
缺失 率 = 总 缺失 数 /总 访问 数 
= 42/( 20 * 4 ) = 42/80 = 0.525 a 
考虑 图 10-4 所 示 的 直接 映射 cache。 假 定 从 0 ~ 255 的 主 存 块 被 按 序 访 问 10 
次 。 这 些 块 的 内 存 地 址 为 0x0 到 0x7FF。 求 出 该 内 存 访问 序列 的 cache 缺失 率 。 另 外 也 求 出 
冷 缺失 、 容 量 缺 失 和 冲突 缺失 的 次 数 。 
解 : 同样 ， 我 们 首先 求解 cache 缺失 的 次 数 ， 然 后 用 它 求 出 该 内 存 访问 序列 的 缺失 率 。 
从 块 地 址 到 槽 地 址 的 映射 由 表 10-3 给 出 。 在 第 一 轮 ， 最 先 的 128 个 块 (0 ~ 127) 充满 了 整 
个 cache， 每 一 个 都 会 导致 一 次 冷 缺 失 ， 总 共 128 次 冷 缺失 ， 这 是 因为 槽 初始 都 是 空 的 。 接 
下 来 的 128 个 块 (128 ~ 255) 中 的 每 个 块 都 会 导致 一 次 缺失 并 且 替 换 掉 已 存在 于 cache 中 
的 块 0 到 块 127 的 一 个 副本 。 例 如 ， 块 128 的 副本 会 替换 掉 块 0 的 副本 ， 块 129 的 副本 会 蔡 
MH 1 的 副本 ， 等 等 。 


表 10-3 在 例 10-4 中 给 定 的 主 存 地 址 的 直接 映射 


地 址 (十 六 进 制 ) 地 址 (二 进 制 ) 块 号 (十 进 制 ) | 标记 (十 进 制 ) | 行 号 (十 进 制 )| 命中 /缺失 


( 10-3 ) 


mo | 000000, 0000000,000 | 0 | o | o | m 
os | 000000, 000001, 000 | 1 | 0 | 1 | w™ 
w0 | 000000, 000010,000 | 2 | o | 2 | ~ 
-| || 
wars | 000000, io | 7 | 0 | 1 | ™ 
maoo | 000001, 0000000,000 | asf 1 | o | ™ 
ox408 | 000001, 0000001, 000 | 129 | 1 | 1 | ™ 
On M 
oo ee C ee | 
one vi 


因此 ， 在 第 一 轮 ， 访 问 块 128 到 块 255 会 造成 128 次 容量 缺失 (原因 稍 后 讲述 )。 在 第 
二 轮 , 块 0 ~ 127 的 副本 在 第 一 轮 已 被 块 128 ~ 255 替换 出 来 了 ， 每 一 个 块 都 会 导致 一 次 
容量 缺失 。 现 在 ， 块 0 的 副本 将 会 蔡 换 掉 cache Hik 128 的 副本 ， 块 1 的 副本 将 会 替换 掉 
Hk 129 的 副本 ， 等 等 。 在 第 二 轮 中 对 块 128 ~ 255 的 访问 将 会 蔡 换 掉 已 存在 于 cache 中 的 块 
0 ~ 127 的 副本 ， 从 而 导致 第 二 轮 总 共 256 次 容量 缺失 。 

第 二 轮 中 的 容量 缺失 模式 将 会 在 剩 下 的 8 轮 中 一 直 重复 。 在 奇数 轮 ， 块 0 ~ 127 的 副本 
会 蔡 换 掉 cache 中 块 128 ~ 255 的 副本 ， 而 在 偶数 轮 (从 2 开始 )， 块 128 ~ 255 的 副本 会 蔡 
换 掉 块 0 ~ 127 的 副本 ， 导 致 每 轮 都 是 256 次 容量 缺失 。 如 公式 (10-4) 所 得 ，10 轮 里 总 
的 cache 缺失 次 数 为 2360， 缺 失 率 为 100%。 在 这 个 案例 中 没有 冲突 缺失 。 

缺失 总 次 数 = 128 次 冷 缺 失 + 128 次 容量 缺失 +(10-1) 轮 *256 次 容量 缺失 / 轮 


= 128 次 冷 缺 失 +2432 次 容量 缺失 

了 (10-4) 
fk KB = 2560 次 缺失 /(10*256) 次 访问 

=10 ~ " 


容量 缺失 与 不 依赖 于 cache 大 小 的 冲突 缺失 差别 明显 。 例 如 ， 如 果 例 10-4 中 的 cache 大 
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小 从 1KB 增加 到 2KB, cache 将 有 足够 的 空间 容纳 所 有 256 个 块 的 副本 ; 因此 ， 这 会 导致 仅 
在 第 一 轮 有 256 KARA MER FY 9 轮 里 面 没 有 缺失 。 这 将 会 改善 100% 的 缺失 率 到 10% 
( 256/2560 )， 而 命中 率 从 0% 变 为 90%。 一 般 说 来 ，cache 的 大 小 是 固定 的 ， 并 在 设计 之 时 
就 被 确定 下 来 。 然 而 ， 缓 存 的 仿真 可 以 用 来 选择 一 个 合适 的 cache 大 小 ， 从 而 不 会 导致 太 多 
的 容量 缺失 。 冲 突 缺 失 和 容量 缺失 有 时 是 组 合 在 一 起 的 。 

通常 ， 缺 失 率 由 块 大 小 决定 。 例 如 ， 正 如 所 预期 的 ， 块 越 小 ， 冷 缺失 会 越 多 。 使 用 更 
大 的 块 型 号 会 减少 冷 缺 失 的 数量 。 然 而 ， 块 的 大 小 和 缺失 率 的 关系 是 程序 依赖 ， 但 是 通常 来 
说 ， 当 与 cache 大 小 相关 的 块 太 小 或 太 大 都 会 增 大 缺失 率 。 


10.2.3 组 相 联 映射 


直接 映射 很 简单 并 且 只 需要 较 少 的 硬件 ， 但 是 它 的 缺点 是 太 受 限制 了 。 如 例 10-3 所 示 ， 
映射 到 同一 个 槽 地 址 的 两 个 或 多 个 频繁 引用 的 块 地 址 可 能 产生 频繁 的 cache 缺失 并 且 导 致 延 
R. Al 10-6 就 展示 了 一 个 带 有 这 样 的 两 个 块 的 程序 ， 它 们 在 内 存 中 相距 1KB。 假 定 cache 
为 1KB 并 且 块 大 小 为 8B。 如 图 所 示 ， 块 129 包含 一 个 短 的 例 行 程序 的 指令 ， 块 1153 包含 
一 个 for 循环 的 指令 。 当 for 循环 重复 执行 和 短 例 行程 序 被 重复 调用 时 ， 都 直接 映射 到 槽 1 
( 表 10-1) 的 块 129 和 块 1153 将 会 在 cache 中 重复 地 互相 替换 副本 。 这 将 会 增加 执行 时 间 ， 
因为 Ic 必须 频繁 地 从 L2 cache 中 取 回 块 129 和 1153 的 指令 。 这 也 增加 了 CPU 空闲 时 间 ; 
然而 ， 多 线程 (第 8 章 ) 可 以 使 这 种 CPU 空闲 时 间 最 小 化 。 

组 相 联 映射 是 一 种 减 小 由 于 冲突 造成 的 缺失 的 方法 ， 例 如 图 10-6 所 示 的 内 存 访问 情景 。 
在 组 相 联 映射 中 ， 绥 冲 存 储 器 被 组 织 成 组 ， 每 一 个 组 
都 有 少量 (如 2、3、4 或 8) 的 槽 。 块 地 址 直接 映射 
成 组 地 址 ， 而 不 是 像 在 直接 映射 中 所 做 的 映射 成 槽 地 
址 。 在 每 个 组 内 ， 一 个 块 能 被 存储 到 某 个 槽 中 ， 这 是 í 
由 替换 算法 决定 的 ， 例 如 近期 最 少 使 用 法 (LRU)、 轮 | return; 
询 法 (循环 形式 ， 先 进 先 出 ) 或 随机 法 。 , 

蔡 换 算法 由 硬件 实现 ， 这 可 能 使 组 相 联 cache 更 I 
复杂 和 更 慢 。 与 其 他 两 种 替换 算法 相 比 ，LRU 需要 
最 多 的 硬件 ， 而 随机 法 需要 最 少 的 硬件 。 已 经 发 现 
的 是 ， 在 cache 型 号 很 小 的 时 候 ， 就 低 cache 缺失 率 
而 言 ，LRU 通常 是 最 好 的 ， 而 随机 法 是 最 差 的 。 当 
cache 型 号 较 大 时 ，LRU 和 随机 法 的 性 能 相近 并 且 都 
好 于 轮 询 法 [1]。 更 多 关于 实现 复杂 度 的 讨论 请 参考 





练习 部 分 。 10-6 ”一 个 展示 了 直接 映射 的 cache 
图 10-7 展示 了 块 地 址 到 一 个 二 路 (两 个 组 ) 1KB 的 局 限 性 的 程序 示例 ; cache 
的 组 相 联 cache， 假定 块 大 小 为 8B。128 个 cache $ 为 1KB， 块 大 小 为 8B 


被 分 为 64 = 2 个 组 ， 每 个 组 有 两 个 槽 。 通 过 使 用 公式 
(10-1) 和 公式 (10-2) 并 替换 m = 6， 块 地 址 被 转换 成 一 个 组 地 址 和 一 个 标记 。 表 10-4 给 
出 了 两 个 存储 器 地 址 0x408 和 0x240B 到 一 个 64 组 的 二 路 组 相 联 cache 中 的 映射 。 

如 图 10-7 所 示 ， 块 1153 先 被 复制 到 cache (假定 为 图 10-6 所 示 的 内 存 访问 情景 ) 并 存 
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储 在 组 1 的 槽 0 中 。 块 129 也 映射 到 组 1， 它 的 副本 现在 存储 到 组 1 的 槽 1 中 。 因 此 ， 与 使 
用 图 10-4 中 的 直接 映射 cache 造成 的 很 多 次 缺失 相 比 ， 图 10-6 中 程序 的 执行 在 对 块 129 和 
1153 访问 时 只 会 造成 两 次 cache 缺失 。 





块 地 址 


低层 存储 器 /cache 
10-7 二 路 组 相 联 cach 的 逻辑 视图 ， 共 有 128 个 槽 ， 每 两 个 槽 分 为 一 组 


表 10-4 块 129 和 1153 到 一 个 64 组 二 路 组 相 联 cache 的 映射 


目标 字 节 地 址 块 地 址 标记 组 号 偏 移 值 | 目标 字 节 
地 址 (十 六 进 制 )| 地 址 : 标记 、 组 ， 偏 移 值 ( 二进制)| (十 进 制 ) | (HER) | (十 进 制 ) | (十 进 制 ) 
, 2 


cache 组 织 结 构 

图 10-8 展示 了 如 图 10-7 中 逻辑 显示 的 二 路 组 相 联 cache 的 数据 通路 。 顶 部 的 标记 和 行 
存储 器 是 为 64 个 组 中 每 个 模 0 保留 的 。 底 部 的 标记 和 行 存储 器 则 是 为 64 个 组 中 每 个 模 1 保 
留 的 。 在 一 次 cache 读 / 写 周期 中 ， 所 有 的 4 个 存储 器 会 被 同时 访问 ， 并 且 到 来 的 标记 会 与 
存储 在 两 个 标记 存储 器 中 的 标记 都 进行 比较 。 如 果 目 标 块 的 副本 在 cache 中 ， 从 标记 存储 器 
中 读 到 的 两 个 标记 之 一 会 与 到 来 的 标记 匹配 成 功 ， 从 而 导致 一 次 cache 命中 。 反 之 ， 副 本 不 
在 cache 中 并 且 该 次 访问 会 导致 一 次 cache RK. 

由 于 在 二 路 组 相 联 cache 中 所 有 的 4 个 存储 器 模块 会 被 同时 访问 ， 组 相 联 cache 会 消耗 
更 多 能 耗 。 一 种 降低 能 耗 的 方法 是 使 用 路 预测 组 相 联 cache， 只 有 一 对 标记 - 行 存储 器 会 被 
首先 查询 。 如 果 这 会 导致 一 次 cache 缺失 ， 则 接 下 来 所 有 成 对 的 标记 - 行 存 储 器 会 被 同时 查 
询 [2]。 

在 组 相 联 cache 中 路 数 不 必 是 2 的 倍数 。 例 如 ， 三 路 组 相 联 cache 将 会 需要 三 对 标记 、 
行 存储 器 模块 ; 在 图 10-8 中 只 有 两 对 。 英 特 尔 的 八 核 Xeon 处 理 器 包含 了 一 个 24MB 的 共享 
L3 cache， 它 被 组 织 成 一 个 8 ta 3 路 ( 称 为 24 路 ) 组 相 联 cache。 只 要 访问 是 由 8 个 不 同 
的 组 发 起 的 ， 相 连 的 8 个 L2 cache 就 能 同时 访问 到 L3 cache. 
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控制 总 线 
数据 总 线 
地 址 总 线 : 标记 ， 组 ， 偏 移 值 





10-8 一 个 64 组 二 路 组 相 联 cache 中 表明 一 次 cache 读 命中 的 数据 通路 “ 


考虑 如 图 10-7 逻辑 展示 的 组 相 联 cache。 假 设 CPU 按 顺 序 引 用 了 例 10-3 给 
定 的 地 址 20 次 。 求 出 这 个 内 存 访问 序列 的 cache 缺失 率 。 同 时 ， 求 出 冷 缺 失 、 容 量 缺 失 和 
冲突 缺失 的 次 数 。 

解 : 表 10-5 表示 了 将 块 地 址 映射 到 组 地 址 的 计算 结果 。 在 第 一 轮 中 ， 这 些 地 址 产生 了 
4 次 冷 缺 失 。 块 Bb 和 Bd 的 副本 被 装载 到 两 个 不 同 组 的 两 个 空 权 中 。 块 Ba 和 Bc 的 地 址 都 
映射 到 组 2, 但 是 这 次 Ba 和 Bc 的 副本 被 存储 到 组 2 的 两 个 不 同 的 槽 中 。 在 剩 下 的 19 轮 中 ， 
由 于 这 4 个 块 的 副本 都 在 cache 中 ，4 个 地 址 不 会 导致 任何 一 次 cache 缺失 ， 也 没有 容量 缺 
失 。 如 下 面 的 计算 所 示 ， 现 在 总 的 缺失 次 数 为 4， 缺 失 率 改 善 到 了 5% (命中 率 = 95%)。 这 
与 使 用 直接 映射 cache (IØ) 10-3 ) 造成 的 42 次 总 缺失 和 缺失 率 = 52.5% (命中 率 = 47.5%) 
形成 对 比 。 

缺失 的 总 次 数 =4 次 冷 缺 失 二 (20 一 1)*0 次 缺失 / 软 
=4 次 总 缺失 
命中 率 =4 次 缺失 / (20 * 4) 次 访问 
= 0.05 


R 10-5 例 10-3 所 给 地 址 的 二 路 组 相 联 映射 


第 一 轮 
地 址 : 标记 ， 行 号 ， 偏 移 值 (二 进 制 )| 标 记 (十 进 制 组 地 址 (十 进 制 ) 行 号 | 字 节 | 命 中 /缺失 
M 


0011110, 000010, 000 30 2 BO 
2 19 B4 M 
2 2 M 
7 17 M 



















拷贝 Ba 到 组 2 行 0 
拷贝 Bb 到 组 19 行 0 
拷贝 Bc 到 组 2 行 1 

拷贝 Bd 到 组 17 行 0 






0000010, 010011, 100 
0000010, 000010, 000 
0001110, 010001, 101 


已 AO Ww p|% 
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( 续 ) 
第 4 轮 到 20 轮 















拷贝 Ba 到 组 2 行 0 与 第 二 轮 相 同 与 第 二 轮 相 同 
拷贝 Bb 到 组 19 行 0 与 第 二 轮 相同 与 第 二 轮 相 同 
拷贝 Be 到 组 2 行 1 与 第 二 轮 相 同 与 第 二 轮 相同 


J a WD pPp|* 


拷贝 Bd 到 组 17 77 0 与 第 二 轮 相同 与 第 二 轮 相同 


10.3 cache 一 致 性 


每 一 个 cache 存储 器 必须 实行 一 致 性 协议 从 而 保证 每 次 读 周 期 返回 的 数据 为 该 数据 块 的 
最 新 副本 ， 无 论 最 新 副本 是 在 cache 中 还 是 在 主 存储 器 中 。 例 如 ， 考 虑 图 10-9 中 的 双 处 理 需 
系统 。 为 了 简单 起 见 ， 每 个 处 理 器 只 显示 了 一 个 核心 和 一 个 与 存储 器 总 线 相连 的 L2 cache。 
该 系统 还 包含 一 个 桥 来 连接 存储 器 总 线 和 IO RA. DMA 控制 器 在 主 存储 器 和 磁盘 驱动 器 
之 间 传 输 页 数据 ， 图 中 还 显示 了 两 个 存储 器 块 的 两 个 副本 Ba 和 Bb， 其 已 复制 到 cache 存储 
ARP o 


处 理 器 0 (PO) 处 理 器 1(P1) 





L2 Cache 0 L2 Cache 1 
(CO) (C1) 


存储 器 总 线 


Bb (DRAMs) 


MO 总 线 


DCI: 设备 控制 器 接口 
10-9 WARES UMA 架构 


图 中 ， 处 理 器 1 (P1) 可 能 执行 一 个 写 回 指令 从 而 更 新 Dol PR Bb 的 副本 中 的 某 个 字 。 
因为 Bb 的 副本 也 存在 其 他 cache 和 主 存储 器 中 ， 直 到 其 他 cache 和 主 存 储 右 意识 到 本 次 更 
新 ， 在 此 中 的 副本 将 保持 原样 ， 与 DC RAE. HU, Æ DMA fehl ae lel EA fas PS 
一 块 ， 如 Ba, Ba 的 副本 也 在 其 他 一 个 或 多 个 cache 中 ， 这 也 将 导致 主 存储 器 中 和 cache 中 
的 Ba 不 同 。 

因为 CPU 轮 询 完 成 写 周 期 ， 在 其 他 cache 中 的 块 副本 (如 果 有 ) 是 无 效 的 或 是 已 被 更 新 
的 。 这 两 个 选项 称 为 失效 和 更 新 高 速 cache 一 致 性 协议 。 一 个 混合 cache 实行 失效 一 致 性 协 
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议和 更 新 一 致 性 协议 的 组 合 。 
10.3.1 失效 协议 与 更 新 协议 


在 一 个 失效 协议 中 ， 当 某 个 cache 中 的 一 个 块 进行 了 更 新 ， 其 他 cache 中 的 该 块 的 副本 
都 将 失效 ， 从 而 阻止 这 些 过 期 副本 被 访问 。 包 含 无 效 副 本 的 cache 存储 器 ， 当 其 需要 使 用 该 
副本 时 ， 其 需要 请 求 来 获取 最 新 副本 。 无 效 协议 的 劣势 在 于 ， 即 使 某 块 中 只 有 一 个 字 进 行 的 
更 新 ， 整 个 块 都 会 被 置 为 无 效 。 这 将 增加 cache 缺失 的 概率 ， 尤 其 是 当 处 理 右 (或 内 核 ) 访 
问 一 个 共享 块 时 。 

PAO, 假设 图 10-9 中 的 处 理 器 PO 访问 了 块 Bb 的 前 半 部 分 ，P1 访问 了 Bb 的 后 半 部 分 。 
每 当 PO 向 其 Bb 块 的 副本 写 数 据 时 ,在 Cl Al Del 中 的 Bb 的 副本 变 为 无 效 。 如 果 P1 再 次 
访问 Bb RX, FE Del PRET E-K cache 缺失 ， 即 使 处 理 器 0 只 更 新 了 块 Bb 副本 的 前 半 
部 分 ， 并 未 修改 P1 访问 的 Bb 副本 后 半 部 分 ，Dcl 仍旧 必须 先 请 求 更 新 Bb 的 副本 。 在 这 种 
情况 下 cache 缺失 也 被 称 为 假 共享 ， 因 为 P0 和 了 P1 并 未 真正 共享 块 Ba 中 的 数据 。 如 果 处 
Shas PO Al Pl 的 确 访问 了 块 Ba 中 的 相同 的 一 个 或 多 个 数据 项 ，Dcl 上 的 cache 缺失 被 称 为 
真 共 享 缺 失 。 

在 一 个 更 新 协议 中 ， 每 个 cache 存储 器 必须 要 其 他 cache 广播 并 告知 任何 更 新 。 当 其 他 
cache 被 告知 时 ， 其 必须 更 新 其 中 副本 的 内 容 (如 果 有 )。 然 而 ， 更 新 协议 的 劣势 在 于 ， 因 为 
增加 了 不 必要 的 更 新 操作 导致 整体 总 线 通信 状况 较 差 。 例 如 ， 假 设 P1 对 块 Bb 中 的 数据 进 
行 了 处 理 ， 但 是 Bb 也 在 Cl 中 ,每 当 PO 向 Bb 写 数 据 时 ， 更 新 协议 要 求 其 必须 告知 Cl 对 
Bb 的 改动 ， 即 使 P1 不 再 需要 访问 块 Bb。 

因为 更 新 协议 会 潜在 地 增加 协议 相关 的 通信 传输 ， 此 协议 并 不 常用 。 然而 ， 混合 cache 
协议 可 以 使 用 一 种 自 适 应 模式 来 利用 两 种 协议 的 优点 。 例 如 ， 混 合 cache 协议 将 在 某 块 被 
更 新 一 定 次 数 后 会 置 其 他 cache 中 该 块 为 无 效 。 在 这 种 情况 下 ， 如 果 了 1 正在 处 理 块 Ba， 而 
Cl 中 含有 块 Ba 的 副本 ，C1 中 的 块 Ba 将 被 置 为 无 效 ， 并 阻止 进一步 不 必要 的 更 新 。 下 面 我 
们 将 讨论 两 种 常用 的 无 效 协议 写 模 式 : BS, SA. 


10.3.2 监听 cache 一 致 性 协议 


每 一 个 cache 存储 器 需要 两 个 控制 器 : cache 控制 器 和 监听 控制 器 。cache 控制 器 用 于 
啊 应 来 自 高 等 级 cache 的 请 求 ， 当 控制 器 属于 一 个 指令 cache 或 数据 cache (Ic 或 Dc) 时 ， 
cache 用 于 响应 来 自 处 理 器 核心 的 请 求 。 监 听 控 制 器 用 于 响应 来 自 较 低 等 级 cache 的 请 求 ， 

当 控制 器 属于 最 低 等 级 cache 时 ， 其 也 用 于 响应 出 现在 存储 器 总 线 上 的 读 / 写 事务 。 

例如 ， 在 图 10-9 中 ，Dec0 的 cache 控制 器 用 于 响应 来 自 PO 的 请 求 。Dc0 的 监听 控制 器 
FA te] SE A cacheC0 的 请 求 。 相 似 的 ，C0 的 cache 控制 器 响应 来 自 Ic0 或 Deo 的 请 求 ， 
CO 的 监听 控制 器 用 于 响应 存储 器 总 线 上 的 事务 。 

假设 采用 无 效 协 议 ， 当 图 10-9 中 的 DMA 控制 器 向 存储 块 Ba 发 起 了 一 个 写 事务 时 ， 
连续 监听 存储 器 总 线 的 CO 监听 控制 器 检测 到 写 动 作 ， 并 置 其 中 Ba 的 副本 为 无 效 。 继 
而 ，C0 将 与 更 高 等 级 的 cache Ic0 或 Deo 进行 通信 并 使 Ba 的 副本 为 无 效 (如 果 有 )。 相 似 
的 ， 由 两 个 L2 cache 中 的 一 个 发 起 的 存储 器 写 事 务 将 被 另 一 个 L2 cache 的 监听 控制 器 检 
测 到 ， 在 其 处 理 器 中 的 该 块 的 副本 (如果 有 ) 将 置 为 无 效 。cache 控制 器 和 监听 控制 器 实行 
更 新 协议 的 方式 与 之 前 相似 ， 唯 一 不 同 的 是 cache 中 的 副本 将 用 新 值 更 新 而 不 是 之 前 置 为 
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无 效 。 


10.3.3 直 与 协议 


直 写 协议 是 一 种 写 无 效 协议 。 正 如 其 名 所 示 ， 处 理 器 处 理 的 所 有 写 请 求 将 穿 过 cache 下 
接 更 新 主 存储 器 。 当 一 次 写 命中 时 (cache 命中 是 由 写 周期 造成 的 )， 不 仅 cache 中 该 块 的 副 
本 将 被 更 新 ， 存 储 器 中 该 块 的 副本 也 将 被 更 新 。 然 而 ， 如 果 cache 中 没有 该 块 的 副本 ， 写 周 
期 将 更 新 主 存储 器 ， 但 该 块 的 副本 将 不 被 加 载 到 cache 中 。 这 么 做 的 原因 是 ，cache 写 事务 
将 转发 数据 到 主 存储 器 中 ， 无 论 数 据 的 副本 是 否 在 cache 中 ， 都 没有 必要 将 该 块 的 副本 复制 
到 cache 中 。 这 也 被 称 为 无 分 配 直 写 cache 协议 ， 如 图 10-10 中 有 限 状 态 图 (FSD) Pra. 





写 命中 ( 修改 
cache 和 存储 器 
中 的 块 内 容 ) 


读 命中 


读 缺 失 
( 复制 块 到 
cache 中 ) 


外 部 写 命中 ( 写 X ) 
} (该 块 被 另 一 模块 写 入 ) 


fa) ai — CC (cache 控制 器 ) 
\ ~ PSC ( 监听 控制 器 ) 


写 缺 失 
( 只 修改 存储 器 中 的 数据 块 ) 


10-10 ”说 明 无 分 配 直 写 协议 的 有 限 状态 图 


HS cache 在 每 块 中 使 用 1 位 来 表示 该 块 的 状态 为 合法 (V) 或 不 合法 (I)， 如 FSD 中 
所 示 。 状 态 V 和 状态 工 被 编码 为 1 位 CCB (图 10-5 ) 并 存储 在 标记 存储 器 中 。 例 如 ，1 可 以 
用 于 表示 cache 中 该 副本 为 合法 ，0 表示 为 非法 或 未 加 载 到 cache 中 。 

FSD 说 明了 5 种 可 能 的 转换 ， 为 1zw 一 人 Tax 一 V Vwa >V, 了 rr 一 Viwn lI 
WM, RM, WH, RH 和 XWH 分 别 表示 写 缺 失 、 读 缺失 、 写 命中 、 读 命中 和 外 部 写 命中 (在 
其 他 cache 中 的 写 命中 )。 例 如 ， 正 如 前 面 关 于 写 命 中 所 说 明 的 那样 ， 写 缺失 是 由 写 周期 造 
成 的 cache 缺失 ， 而 读 缺 失 是 由 读 周 期 造成 的 。 

直 写 协议 的 优势 在 于 其 较为 简单 ， 在 每 个 cache P, 一块 的 副本 只 能 为 两 种 状态 中 的 一 
种 。 然 而 ， 这 种 协议 的 劣势 是 其 可 能 造成 总 线 过 载 和 cache 堵塞 ， 故 而 ， 在 多 核 或 多 处 理 硕 
系统 中 不 推荐 使 用 直 写 协议 。 

例如 ， 考 虑 图 10-9 中 的 多 处 理 器 系统 ， 并 假设 cache 使 用 图 10-10 的 直 写 协议 。 假 定 
PO 中 运行 下 列 代 码 段 。 因 为 sum 被 声明 为 全 局 变量 ， 数 组 中 的 元 素 之 和 将 不 被 存储 在 寄存 
器 中 ， 相 反 ， 每 当 数组 中 的 下 一 个 元 素 加 到 部 分 和 时 ， 在 主 存储 器 和 cache 中 包含 sum 的 该 
块 都 将 被 更 新 。 因 为 在 for 循环 中 ，sum 被 更 新 了 100 K, Dco 需要 发 送 100 TARAS 
来 更 新 L2 cache， 相 应 的 ，L2 cache 将 发 送 100 个 写 事务 来 更 新 主 存储 器 ， 造 成 了 存储 器 带 
宽 的 浪费 。 
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int sum = 0; //global variable sum 
main () 


{ 


int array[100]; //locally declared array 


for(i = 0; i< 100; i++) 


{ 
} 
TEES 


sum = sum + array [i]; 


10.3.4 与 回 协议 


写 回 协议 被 设计 用 来 在 保持 cache 一 致 性 的 前 提 下 降低 不 必要 的 总 线 使 用 和 cache 过 
载 ， 常 用 的 写 - 回 无 效 协议 为 MESI (发 音 为 “messy”) 协议 ， 此 外 ， 还 有 其 他 两 种 MESI 
类 型 协议 ，MESIF (用 于 Intel) 和 MOESI (用 于 AMD) 被 设计 用 来 提升 cache-cache 间 的 
通信 效率 。 

1. MESI 

在 MESI 协 议 中 ， 存 储 器 数据 块 的 cache 拷贝 可 以 为 以 下 4 种 状态 之 一 : 修改 (M)、 专 
有 (E) F (S) E% (1) 或 不 存在 ，MESI 协 议 的 FSD 如 图 10-11 所 示 。 状 态 M 表示 
cache 中 该 块 的 拷贝 已 经 被 修改 〈 脏 的 )， 不 再 是 “干净 的 ”一 -一 干净 指 的 是 其 与 主 存储 器 中 
的 拷贝 相同 。 状 态 E 表示 cache 中 含有 主 存储 器 之 外 该 块 的 唯一 拷贝 。 状 态 S 表示 有 2 个 或 
多 个 cache 含有 该 块 的 拷贝 ， 此 外 ， 每 份 拷贝 都 是 “干净 的 ”。 


写 缺失 






读 缺 失 / 不 共享 


. 
g 


3 a iiis l pe a aT cache = T: 总 线 
X/ i 2 Fad 

读 X/ 通 知 或 清空 a 读 X/ 清 空 1 4 上 已 修改 的 块 

— Pa 清空 2: 当 cache-cache 间 

写 X a 使 用 未 修改 的 块 进行 传输 时 ， 
ee 清空 未 修改 块 的 拷贝 
-r -一 写 X/ 清 空 通知 : 本 cache 通 知 其 他 cache 
其 有 某 块 的 拷贝 

> 监听 控制 器 无 效 : 该 cache 在 其 修改 某 块 
一 > cache 控制 器 Haas ee 必须 先 使 
Tre 其 他 cache 不 含 该 块 


ot 至 少 有 其 他 1 个 cache 
含有 该 块 的 拷贝 


10-11 MESI 协议 有 限 状态 图 


K 10-6 描述 了 MESI 中 各 种 状态 转移 。MESI 协议 相对 于 直 写 协议 而 言 ， 极 大 地 降低 了 
通信 流量 ， 但 是 其 也 比 直 写 协议 复杂 得 多 。 例 如 ， 为 了 更 新 共享 的 拷贝 (S)，MESI cache 必 
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须 执 行 以 下 任务 : 


表 10-6 MESI 协议 中 的 状态 事务 

状态 转移 描 £ 
Iru— S 其 他 cache 中 也 含有 该 块 拷贝 时 发 生 读 缺失 
Iru > E 没有 其 他 cache 含有 该 块 拷贝 时 发 生 读 缺 失 
Iwu—> M 写 缺失 
Sru > S 对 一 个 共享 块 的 读 命中 
Sws— M 对 一 个 共享 块 的 写 命中 ， 在 修改 该 数据 块 的 拷贝 之 前 ， 必 须 告知 其 他 cache 其 对 该 块 进行 了 修改 
Ewu > M 对 一 个 专 有 块 的 写 命中 ，cache 不 需要 先 通知 其 他 cache 即 可 进行 修改 操作 
Eru > E 对 一 个 专 有 块 的 读 命中 
Mrn 一 M | 对 一 个 已 经 修改 块 的 读 命中 
Mwa >M | 对 一 个 已 经 修改 块 的 写 命中 
Sxwu — I 外 部 写 命 中 ， 有 其 他 cache 请 求 修改 该 块 

外 部 读 命 中 ， 其 他 cache 请 求 获 取 该 块 的 拷贝 cache 必须 先 清 空 总 线 上 的 该 块 (清空 1 )， 使 得 
其 他 cache 可 以 加 载 该 块 
Exwu > I 外 部 写 命 中 ， 其 他 cache 正在 向 该 块 写 人 数据 


外 部 写 命中 ， 其 他 cache 请 求 写 该 已 修改 的 块 ， 本 cache 必须 清空 (清空 1 ) 总 线 上 该 修改 块 并 
置 其 为 无 效 


Sxru— S 外 部 读 缺 失 ， 其 他 cache 正在 从 主 存储 器 或 其 他 cache (清空 2 ) 中 加 载 该 块 的 拷贝 
Exru > S 外 部 读 命 中 ， 其 他 cache 正在 从 主 存储 器 或 另 一 个 cache (清空 2 ) 中 加 载 该 块 的 拷贝 
RM: 读 缺 失 ，WM: 写 缺 失 ，RH: 读 命中 ，WH: 写 命 中 ，X: 外 部 的 


Myru— S 


Mywu > I 


1) cache 在 修改 S 状态 的 拷贝 前 ， 必 须 通知 其 他 cache (通过 监听 协议 )。 这 将 确保 其 
他 cache 中 该 块 的 拷贝 为 无 效 。 

2) cache 之 后 将 修改 该 块 的 拷贝 ， 并 改变 该 块 拷贝 的 状态 由 S 变 为 M。 同 时 ， 其 监听 
控制 器 将 负责 响应 来 自 其 他 cache 或 DMA 控制 器 对 该 块 的 读 / 写 请 求 。 

3) MRE REM, cache 必须 向 存储 右 写 和 人 该 已 修改 的 块 拷贝 。 

然而 ， 对 一 个 EE 状态 的 块 拷 贝 的 写 命 中 并 不 需要 监听 控制 器 告知 其 他 cache， 因 此 ， 
MESI 协议 减少 了 总 线 事务 并 降低 了 cache 通信 流量 。 

在 当今 多 数 采用 MESI 协议 的 计算 机 中 ， 通 常 是 主 存储 器 而 不 是 cache 负责 发 送 S 状态 
的 块 拷贝 给 请 求 拷 贝 的 cache。 此 外 ， 当 从 一 个 cache 疝 一 个 请 求 cache 中 传输 一 个 已 修改 
的 数据 块 时 ， 主 存储 器 中 该 块 的 拷贝 也 将 被 更 新 ， 使 得 在 cache MER HE PARE Vl 
都 变 为 干净 的 ， 转 为 状态 S。 

在 一 个 NUMA 系统 中 ， 所 有 的 存储 器 空间 被 分 割 为 多 个 结 点 ， 如 图 10-12 所 示 。 
NUMA 系统 中 每 一 个 结 点 都 包含 一 个 用 于 内 部 结 点 相互 通信 的 通信 接口 ( CI)， 一 个 请 求 结 
点 的 CI 将 向 目的 结 点 的 CI 按 一 定 的 路 径 发 送 一 个 远程 存储 器 事务 ， 从 而 在 两 个 结 点 间 生 
成 一 个 虚拟 连接 。 例 如 ， 在 图 中 ，CI0 和 Cll 间 的 通信 将 使 得 结 点 0 和 结 点 1 中 的 存储 器 总 
线 出 现 连接 ， 从 而 在 结 点 0 和 结 点 1 间 出 现 无 缝 通信。 然而 ， 当 多 个 cache 请 求 访问 一 个 
共享 块 时 ， 这 种 点 对 点 的 通信 方式 将 潜在 的 增加 通信 延迟 。 例 如 ， 考 虑 图 中 的 块 Ba， 夺 该 
cache 采用 无 “清空 2” 选 项 的 MESI 协 议 (如 图 10-11 PÈ X/ 清空 2 的 弧 线 )，M3 将 需要 
发 送 Ba 块 的 拷贝 给 所 有 请 求 获得 该 块 的 cache。 这 将 潜在 地 使 M3 成 为 一 个 需 引 入 延 时 的 
热点 ， 因 此 增加 了 平均 延 时 。 相 似 的 ， 如 果 cache 采用 含有 “清空 2” 选 项 的 MESI 协 议 来 


5 


进行 cache-cache 间 的 通信 ， 含 有 共享 拷贝 的 处 理 器 将 变 为 一 个 热点 。 两 种 先前 引入 的 协议 
MESIF 和 MOSEI 将 用 于 解决 这 个 问题 ， 我 们 将 在 接 下 来 讨论 。 





通信 接口 “ 通信 接口 通信 接口 通信 接口 
(Clo) (CI1) (C12) (C13) 
Ba 
Bb 
互连网 络 
( 如 第 9 章 中 的 快速 通路 、 超 传输 等 ) 


10-12 3 个 结 点 NUMA 系统 框图 


2. MESIF 

MESIF 协议 设计 用 来 实现 cache-cache 间 的 共享 数据 块 (S) 的 通信 。 当 两 个 或 多 个 
cache 含有 共享 数据 块 的 拷贝 时 ， 其 中 一 个 (第 一 个 ) cache 中 的 拷贝 将 标记 为 F (转发),， 其 
他 cache 中 该 块 的 拷贝 将 标记 为 S$。 包含 状态 F 的 数据 块 的 cache 负责 传输 (转发 ) 该 数据 
块 的 拷贝 给 下 一 个 接收 拷贝 的 cache。 然 而 ， 在 传输 之 后 ， 传 输 的 cache 将 改变 其 数据 块 的 
状态 从 F 到 S， 接 收 的 cache 将 存储 拷贝 并 将 该 拷贝 状态 改 为 F。 

因为 只 有 一 个 cache 中 含有 状态 为 F 的 数据 块 拷贝 ， 该 数据 块 在 进行 一 次 传输 后 状态 将 
TH S, MESIF 协议 从 而 阻止 了 任 一 cache 成 为 一 个 热点 ， 通 过 标记 下 状态 使 得 cache 轮流 
传输 共享 块 的 拷贝 给 请 求 的 cache。 注 意 ， 在 图 10-12 PH) NUMA 系统 中 ， 因 为 每 个 结 点 只 
包含 一 个 处 理 器 ，MESIF 将 开启 结 点 和 结 点 间 的 对 共享 拷贝 的 通信 。 如 果 每 个 结 点 为 UMA 
多 处 理 器 系统 ，cache-cache 间 的 通信 允许 在 结 点 中 的 每 个 cache 从 本 地 cache 中 获取 共享 数 
据 块 拷贝 (如 果 有 )， 而 不 是 从 另 一 个 结 点 中 获取 ， 从 而 避免 了 不 必要 的 延迟 。MESIF 协议 
中 M、E、S、I 状 态 工作 方式 和 MESI 协议 中 相同 。 

例如 ， 假 设 图 10-12 中 的 4 结 点 NUMA 系统 采用 MESIF 协议 ， 并 且 每 个 结 点 含有 一 个 
目录 (未 在 图 中 显示 )， 在 结 点 的 每 个 存储 块 中 ， 该 目录 包含 一 系列 对 该 数据 块 拷 贝 进行 了 
cache 的 结 点 名 称 。 此 外 ， 假 设 图 10-12 中 的 块 Ba BRA cache C3 ( 结 点 3)， 并 已 发 送 一 
份 拷贝 给 cache CO ( 结 点 0 ) 。 在 结 点 3 中 关于 块 Ba 的 目录 列 出 了 结 点 0 和 结 点 3， 并 标记 
结 点 0 为 FE。 另 一 个 cache， 如 C1 ( 结 点 1 )， 对 Ba 块 的 请 求 将 首先 发 送 给 结 点 3。CI3 通信 
接口 将 检查 关于 块 Ba 的 目录 并 转发 C1 的 请 求 给 结 点 0， 再 改变 目录 使 其 包含 结 点 1， 但 此 
时 其 将 标记 结 点 1 为 FE。 结 点 3 下 次 接收 到 关于 状态 位 $ 的 Ba 拷贝 的 请 求 时 ， 在 结 点 1 中 
的 包含 状态 为 F 的 数据 块 的 cache 将 负责 发 送 该 拷贝 。 在 目录 中 ， 一 个 包含 已 修改 拷贝 (如 
Bb'， 其 中 ' 表示 其 已 修改 ) 的 结 点 〈 如 结 点 2 ) 将 被 标记 为 M。 

与 MESI 协 议 相 似 ， 在 MESIF 中 , 每 当 一 个 已 修改 拷贝 传输 到 另 一 个 处 理 器 时 ， 主 存 
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储 器 中 该 拷贝 也 将 更 新 。 在 一 个 NUMA 结构 中 ， 这 要 求 包含 已 修改 拷贝 的 cache 发 送 二 次 
事务 从 而 更 新 相应 的 存储 器 单元 。 注 意 ， 在 一 个 cache 采用 MESI 协 议 的 UMA 结构 中 ， 其 
中 最 低 等 级 的 cache 和 主 存储 器 共享 一 个 公用 总 线 ， 当 总 线 上 检测 到 传输 一 个 已 修改 数据 块 
时 ， 主 存储 器 中 的 内 容 也 将 更 新 (通过 其 监听 控制 器 )。 

3. MOESI 

与 MESIF 相反 ，MOESI 协议 设计 用 来 支持 cache-cache 间 对 已 修改 拷贝 的 通信 。 使 用 
状态 O 来 表示 拥有 ， 并 被 用 来 在 不 更 新 主 存储 器 的 情况 下 共享 已 修改 数据 块 的 拷贝 。 当 某 个 
cache 请 求 获 取 一 个 已 修改 数据 块 的 拷贝 时 ， 含 有 该 已 修改 拷贝 的 cache 将 传输 该 拷贝 给 请 求 
的 cache， 并 改变 其 拷贝 的 状态 由 M 到 S。 然 而 ， 接 收 的 cache 将 设置 其 拷贝 状态 为 O。 下 一 
次 发 生 对 该 已 修改 拷贝 的 请 求 时 ， 含 有 状态 O 拷贝 的 cache 将 负责 传输 拷贝 到 请 求 的 cache 
中 。 在 一 次 传输 后 ， 源 cache 中 该 拷贝 的 状态 将 由 O 变 为 S， 而 目的 cache 中 该 拷贝 的 状态 将 
为 0。 因此 ， 和 MESIF 协议 一 样 ， 采 用 MOESI 协议 的 系统 阻止 了 一 个 cache 变 为 热点 。 

注意 ， 在 MOESI 协议 中 ， 对 干净 的 拷贝 的 请 求 必须 来 自 于 相应 的 存储 器 单元 ， 除 非 一 
个 M 或 0 状态 的 拷贝 存在 于 男 一 个 cache 中 。 在 MOESI 协议 中 ， 对 状态 为 M OHH 
的 更 换 要 求 一 次 事务 来 更 新 存储 器 。 相 似 的 ， 在 一 个 采用 MOESI 协议 的 NUMA 系统 中 ， 
每 个 结 点 中 的 目录 中 将 记录 一 系列 含有 S 状态 拷贝 的 cache 名 ， 其 中 只 有 一 个 标记 为 状态 O 
(如 果 有 )。 注 意 ， 在 MOESI 协议 中 ，S 状态 的 拷贝 与 主 存储 器 中 的 拷贝 可 能 相同 也 可 能 不 
相同 。 记 录 包 含 已 修改 拷贝 的 结 点 的 目录 与 MESIF 协议 中 的 相同 。 


10.4 虚拟 存储 器 


现代 单 核 、 多 核 和 多 处 理 器 计算 机 系统 采用 多 道 程序 设计 ， 使 得 多 个 单线 程 或 多 线程 的 
程序 (第 8 章 ) 并 行 执行 。 也 就 是 说 ， 操 作 系统 轮转 给 每 个 线程 分 配 一 定 的 CPU 时 间 供 其 执 
行 。 在 一 个 含有 多 个 处 理 器 核心 的 多 核 处 理 器 或 多 处 理 器 系统 中 ， 多 线程 将 并 行 执行 。 如 果 
每 个 核心 还 采用 同步 多 线程 技术 (第 8 章 )， 更 多 数量 的 线程 可 并 行 执行 。 

OS 为 了 可 分 配 CPU 时 间 给 各 个 线程 ， 其 需要 给 每 个 正在 运行 的 单线 程 或 多 线程 程序 分 
配 主 存 储 器 空间 ， 这 一 程序 被 称 为 进程 。 虽 然 单个 进程 可 能 不 共享 其 分 配 的 内 存 空 间 ， 但 多 
线程 程序 的 线程 可 共享 分 配给 该 进程 的 内 存 空间 (如 : 一 个 程序 中 的 多 个 线程 均 可 访问 该 程 
序 中 声明 的 全 局 变量 )。 因 此 ， 现 代 计 算 机 系统 必须 实现 关于 存储 器 等 级 中 对 底层 两 级 ( 非 
易 失 性 存储 器 和 主 存储 器 ) 的 下 列 要 求 : 

e 可 运行 一 个 对 于 物理 存储 器 而 言 更 大 的 程序 。 程 序 包含 太 多 的 指令 和 大 数据 结构 以 

致 于 其 不 可 被 完整 地 存储 到 主 存储 器 中 。 
o 当主 存储 器 中 没有 足够 的 空间 来 同时 存储 所 有 进程 的 指令 和 数据 时 ， 操 作 系 统 依然 
可 以 执行 多 进程 。 

o 保护 进程 使 得 一 个 进程 在 未 被 允许 时 不 可 访问 另 一 进程 的 存储 器 空间 。 

现代 计算 机 系统 采用 虚拟 存储 器 来 实现 以 上 三 个 要 求 。 当 一 个 程序 运行 时 ， 必 须 从 非 易 
失 性 存储 器 (如 硬盘 ) 中 拷贝 该 程序 相关 的 指令 和 数据 到 主 存储 器 中 ， 以 供 执行 。 然 而 ， 因 
为 物理 存储 器 的 大 小 比 硬盘 要 小 得 多 ， 例 如 cache， 每 个 进程 存储 在 硬盘 上 的 指令 和 数据 只 
有 一 小 部 分 存储 到 物理 存储 器 的 可 用 空间 中 。 

例如 ， 一 个 地 址 总 线 宽度 为 32 位 、 数 据 总 线 宽 度 为 32 位 的 32 位 CPU 最 多 可 读 写 
4GB (2”°B) 存储 器 空间 ， 组织 结构 为 20x 32 的 存储 器 单元 。 即 使 物理 存储 器 空间 如 此 之 
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大 ， 也 无 法 装载 包括 操作 系统 相关 进程 的 所 有 进程 的 指令 和 数据 。 

因此 ，32 位 CPU 可 访问 的 全 部 4GB 存储 空间 被 解释 为 虚拟 空间 而 不 是 实际 的 物理 空 
间 。 此 外 ,为 了 可 以 同时 运行 操作 系统 和 用 户 进 程 ，4GB 虚拟 空间 中 的 一 半 (2GB) 将 被 
保留 以 供用 户 进 程 使 用 ， 男 外 一 半 供 系统 进程 使 用 。 在 CPU 状态 寄存 器 中 ， 使 用 单独 的 一 
位 来 表示 CPU 在 用 户 模 式 且 地 址 属于 用 户 进程 或 者 CPU 处 于 内 核 模式 且 地 址 属于 系统 进 
程 。 分 配给 各 个 进程 的 虚拟 存储 器 空间 将 进一步 划分 为 多 个 指令 域 和 数据 域 ( 见 第 8 章 中 
图 8-5 ) 。 然 而 ， 一 个 非常 大 的 (大 小 大 于 4GB) 程序 需要 在 64 位 计算 机 系统 中 编译 运行 。 

当 一 个 操作 系统 给 每 个 线程 分 配 一 定 的 CPU 时 间 ， 操 作 系 统 每 次 被 定时 器 中 断 时 ， 将 
执行 一 次 上 下 文 切 换 (第 9 章 )。 在 一 个 上 下 文 切 换 过 程 中 ， 刚 刚 执行 一 片 CPU 时 间 的 线程 
的 状态 将 被 保存 ， 而 等 待 执行 的 线程 的 状态 将 被 恢复 ， 使 得 每 个 线程 的 执行 过 程 和 无 上 下 文 
切换 时 的 执行 过 程 是 相同 的 ， 从 而 给 用 户 产 生 每 个 线程 一 个 CPU 的 错觉 。 

如 果 切 换 没 有 改变 CPU 当前 访问 的 虚拟 地 址 空间 ， 上 下 文 切 换 也 被 称 为 线程 切换 ， 否 
则 将 称 为 进程 切换 。 进 程 切换 后 ，CPU 将 从 一 个 新 的 虚拟 空间 执行 一 个 线程 。 在 丁 剩余 
部 分 ， 我 们 将 主要 关注 与 存储 器 相关 的 进程 切换 。 

和 从 物理 存储 器 拷贝 指令 和 数据 块 到 cache 中 相似 ， 指 令 和 数据 块 ， 每 个 称 为 一 页 ， 当 
需要 时 ， 从 虚拟 存储 器 (例如 硬盘 ) 拷贝 到 物理 存储 器 (参考 第 9 章 中 的 DMA 传输 )。 如 果 
一 个 物理 页 的 内 容 是 脏 的 〈 修 改过 的 )， 在 用 新 的 虚拟 页 内 容 代 替 其 之 前 ， 必 须 将 其 中 的 内 
容 拷贝 回 硬盘 中 。 

在 现代 PC 系统 中 ， 每 一 页 的 大 小 一 般 为 4KB (一 个 相对 较 大 的 块 )， 这 个 大 小 使 得 在 硬 
盘 和 物理 存储 器 之 间 的 DMA 传输 效率 更 高 。 如 果 存 储 器 空间 划分 为 更 大 尺寸 的 页 ， 对 于 一 
个 进程 ， 将 产生 更 少 的 页 缺失 ， 和 使 用 更 大 尺寸 块 时 cache 冷 缺 失 情 况 更 少 相 似 。 某 些 系统 
可 能 使 用 可 变 大 小 的 页 ， 称 之 为 段 ， 但 是 此 处 ， 我 们 主要 关注 基于 页 的 虚拟 存储 器 管理 系统 。 


10.4.1 虚拟 地 址 转换 


图 10-13 使 用 包含 两 个 进程 的 系统 状态 的 用 例 说 明了 基于 页 的 虚拟 存储 器 管理 系统 。 在 
图 中 ， 进 程 0 包含 12 个 虚拟 页 ， 而 进程 1 包含 9 个 虚拟 页 ， 物 理 存储 器 包含 8 个 物理 页 。 在 
一 个 进程 执行 过 程 中 ， 当 需要 时 ， 存 储 器 系统 必须 映射 并 存储 进程 虚拟 页 中 的 内 容 到 物理 存 
储 器 中 。 上 映射 是 全 相 联 的 ， 因 此 ， 虚 拟 页 中 的 内 容 可 存储 到 物理 存储 器 中 的 任何 一 页 。 然 而 ， 
不 同 于 存储 髓 -cache 上 映射， 存储 器 -cache 映射 全 部 由 人 硬件 完成 ， 虚 拟 - 物理 的 存储 器 地 址 映 
射 部 分 由 软件 (如 OS) 执行 部 分 由 硬件 模块 执行 ， 该 硬件 模块 被 称 为 内 存 管理 单元 (MMU), 

在 图 10-13 中 ， 对 于 进程 0 虚拟 页 标号 为 0 ~ 11， 进 程 1 标号 为 0 ~ 8。 进 程 0 中 的 虚 
拟 页 3、5、8 分 别 映射 到 物理 页 5、2、7。 进 程 1 中 的 虚拟 页 2、5 分 别 映 射 到 物理 页 3、0。 
物理 页 1、4、6 未 被 占用 ， 为 可 用 的 。 

虚拟 存储 器 系统 使 用 页 表 来 保存 虚拟 - 物理 的 页 映射 记录 。 例 如 ， 当 使 用 大 小 为 4KB 
的 页 ，2GB 的 虚拟 存储 器 需要 512K ( 2GB/4KB) 条 目录 的 页 表 。 因 为 每 个 进程 含有 其 自身 
的 页 表 ， 当 系统 中 进程 数量 提升 时 ， 页 表 的 数量 也 将 提升 。 因 此 ， 一 般 而 言 ， 一些 最 不 被 访 
问 的 表 项 可 能 会 暂时 存储 在 硬盘 上 ， 到 需要 时 复制 到 物理 存储 器 中 。 

图 10-14 概述 了 进程 0 中 虚拟 页 3、5、8 到 物理 页 5、2、7 的 映射 。 在 图 中 ,假设 每 一 
页 大 小 为 256B， 每 个 虚拟 存储 空间 为 32KB ( 2“B),， 包含 128 (32KB/256B) 个 虚拟 页 ， 物 
理 存储 空间 为 8KB， 包 含 32( 8KB/256B) 个 物理 页 。 在 这 种 情况 下 ，15 位 的 虚拟 地 址 可 看 
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作 包 含 7 位 的 虚拟 页 号 (VPN, 高 7 位 ) 和 8 位 的 页 偏 移 ( 低 8 位 )。 页 偏 移 与 cache 块 偏 移 
相似 ， 用 于 在 一 个 虚拟 页 或 物理 页 中 确定 目标 字 节 或 目标 字 。 
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图 10-14 图 10-13 中 进程 0 中 的 虚拟 页 地 址 通过 MMU 的 虚拟 - 物理 地 址 转换 步骤 
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假设 每 个 128- 页 表 中 每 条 记录 16 位 (2B)。 每 条 记录 包含 5 位 (25 = 32) 的 物理 页 地 
HE (PPN) 和 一 系列 状态 位 ， 如 有 效 位 (v) 和 访 存 控制 位 (如 读 、 写 、 脏 、 用 户 和 监听 等 )。 
当 有 效 位 为 1 时 表明 表 中 该 记录 包含 了 一 条 有 效 的 PPN。 

特殊 的 ， 当 采用 虚拟 存储 占 系 统 时 ， 程 序 从 虚拟 地 址 0 开始 执行 ， 包 括 指 令 地 址 和 数 
据 地 址 一 一 例如 ， 在 执行 LD 指令 和 ST 指令 (第 8 章 ) 过 程 中 一 一 都 采用 虚拟 地 址 。 采 用 
图 10-14 中 说 明 , 以 下 步骤 描述 了 MMU 转换 15 位 虚拟 地 址 0x0501 到 13 位 物理 地 址 
0x0201 和 物理 存储 器 转换 相应 的 cache 行 到 处 理 器 的 操作 过 程 : 

1) MMU 将 15 位 的 虚拟 地 址 0x0501 AE 7 位 的 虚拟 页 号 VPN = 5 (0x05) 和 8 位 的 页 
偏 移 0x01。 使 用 VPN = 5 作为 索引 ，MMU 将 访问 进程 0 的 页 表 ， 其 页 表 存 储 在 物理 存储 器 
中 页 表 基 地 址 TBA = 0x600 处 ， 如 图 所 示 。 在 页 表 中 ,与 VPN = 5 相对 应 的 记录 包含 PPN = 
2 = (00010) ,及 有 效 位 v = 1， 这 表明 对 应 的 物理 页 号 为 2 并 且 有 效 (包含 了 最 新 的 数据 )。 
物理 页 号 2 再 与 页 内 偏 移 0x01 一 起 生成 一 个 13 位 的 有 效 物 理 存 储 器 地 址 0x0201。 

2) 接 下 来 ， 物 理 存储 器 将 传输 包含 地 址 0x0201 的 数据 块 作为 一 个 cache 行 到 处 理 器 
中 ， 如 图 所 示 。 

因此 ， 处 理 需 接收 虚拟 地 址 0x0501 中 的 内 容 需要 两 次 独立 的 物理 存储 器 访问 。 在 第 
一 次 访问 中 ，MMU 直接 访问 物理 存储 器 转换 虚拟 地 址 0x0501 为 物理 地 址 0x0201。 在 第 
二 次 访问 中 ， 物 理 存储 器 将 响应 cache 缺失 ， 传 输 包 含 物理 地 址 0x0201 内 容 的 数据 块 给 处 
理 器 。 

在 系统 中 ， 因 为 虚拟 存储 器 空间 非常 大 ， 其 需要 一 个 非常 大 的 页 表 ，MMU 在 完成 虚 
拟 - 物理 地 址 转换 之 前 将 需要 一 定时 间 来 访问 物理 存储 器 。 多 级 页 表 是 一 种 组 织 存储 超大 页 
表 的 解决 方式 ， 在 多 级 页 表 中 的 每 条 记录 ， 当 其 不 处 于 最 低级 时 ， 其 还 包含 一 个 供 查询 下 一 
级 页 表 的 TBA， 最 低 等 级 的 页 表 将 包含 PPN。 

假设 页 大 小 为 256B 的 系统 含有 4MB (22B) 的 虚拟 地 址 空间 。 共 有 16K 个 虚拟 页 
(4MB/256B )， 远 远 多 于 图 10-14 中 的 仅 包含 128 个 虚拟 页 的 系统 。 图 10-15 说 明了 采用 2 
级 页 表 结 构 组 织 存储 16K 虚拟 页 的 方式 。 其 中 ，MMU 将 虚拟 地 址 中 22 位 地 址 看 作 3 部 分 ， 
如 图 10-15 Pras: 7 位 的 索引 用 于 访问 一 级 页 表 (图 中 页 表 1 ),7 位 的 索引 用 于 访问 二 级 页 
表 (图 中 页 表 2) 和 8 位 的 页 内 偏 移 (最 低 8 位 )。 

MMU 使 用 最 高 7 位 地 址 0x00 作为 索引 来 从 一 级 页 表 中 读 取 二 级 页 表 的 地 址 TAB = 
0x400， 用 于 访问 一 级 页 表 的 TBA 为 0x600， 如 图 10-15 所 示 。 接 着 ，MMU 将 使 用 第 二 部 
分 7 位 地 址 从 二 级 页 表 (最 低 等 级 页 表 ) 中 获取 相应 的 物理 页 地 址 PPN=2= (00010): AK 
有 效 位 v = 1。PPN = 2 再 与 8 位 的 页 内 偏 移 地 址 组 合成 目标 13 位 物理 地 址 。 如 上 所 示 ， 在 
这 种 情况 下 ， 相 对 于 图 10-14 只 需要 一 次 访问 物理 存储 器 ， 其 需要 两 次 访问 物理 存储 器 来 转 
换 虚 拟 地 址 (如 0x0501 ) 为 相应 的 物理 地 址 (如 0x0201 ) 。 


10.4.2 ”转译 后 备 缓冲 器 


为 了 降低 虚拟 - 物理 地 址 转换 的 长 延迟 ， 最 常 引 用 的 PPN 也 保存 在 一 个 专用 的 全 相 联 
cache 存储 器 中 ， 这 也 被 称 为 转译 后 备 缓冲 器 (TLB)， 通 常 称 为 快 表 。 图 10-16 说 明了 含有 
32 SAN A BK TLB 组 织 结构 。 与 采用 直接 映射 和 组 相 联 映射 的 cache 中 所 使 用 的 标记 和 
数据 存储 不 同 ， 全 相 联 TLB 中 需要 使 用 寄存 器 来 存储 标记 和 PPN。 其 不 需要 行 号 和 组 地 址 ， 
采用 并 行 的 方式 搜索 目标 标记 ， 如 图 10-16 所 示 。 
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图 10-15 2 级 页 表 组 织 结构 


TLB 并 不 需要 cache 一 致 性 标志 位 ， 如 图 所 示 ， 其 保存 了 来 自 页 表 的 状态 位 ， 包 括 脏 位 
(d)。 一 开始 ， 处 理 器 第 一 次 访问 一 个 数据 页 时 ， 在 TLB 中 该 页 的 PPN 标记 为 不 脏 (d=0). 
MARES ( 直 写 或 写 回 ) 并 修改 了 来 自 该 页 的 某 个 数据 块 ， 在 TLB 中 该 记录 的 4 位 变 为 
1。 当 d= 1 时 ， 其 表明 在 物理 存储 器 中 该 页 已 修改 ， 在 其 被 一 个 新 转换 的 虚拟 页 替换 之 前 ， 
需 将 该 页 内 容 写 回 到 硬盘 上 。 并 且 ， 由 于 TLB 是 全 相 联 的 ， 其 必须 实行 一 种 槽 蔡 换算 法。 

TLB 的 蔡 换 算法 相对 于 LRU 而 言 ， 需 使 用 更 少 的 硬件 ， 如 图 所 示 ， 其 在 每 个 目标 寄存 
句 中 使 用 一 个 使 用 位 (uw) 来 记录 该 记录 使 用 。 每 当 从 TLB 中 访问 一 个 PPN 时 ， 该 PPN 对 
应 的 记录 中 x 位 将 置 为 1。 其 他 所 有 记录 的 wx 位 将 置 复位 为 0， 表 示 这 些 记 录 最 近 未 访问 。 
每 当 TLB 访问 产生 一 次 缺失 时 ，TLB 将 开始 一 个 新 的 虚拟 - 物理 地 址 转换 ， 并 替换 一 条 
u= 0 的 记录 模 。 如 果 被 替换 的 记录 中 4 = 1 (表示 该 页 在 物理 存储 器 中 已 修改 )， 在 页 表 中 该 
已 修改 页 的 4 位 也 将 置 为 1， 该 槽 继而 使 用 刚 确定 的 PPN 进行 更 新 。 


10.4.3 ”处 理 颖 组 织 结构 


图 10-17 说 明了 3 种 处 理 器 内 部 组 织 结构 。 在 图 10-17a 中 ,使 用 两 个 TLB 快速 转换 两 
个 虚拟 地 址 ， 一 个 用 于 指令 ， 一 个 用 于 数据 (如 果 有 )， 并 在 L1 cache 使 用 各 自 的 物理 地 址 
之 前 ,传输 相应 的 物理 地 址 给 L1 cache。 这 种 结构 的 优势 在 于 其 在 L1 cache 中 使 用 物理 地 
址 寻 址 cache， 而 图 10-17b 中 使 用 虚拟 地 址 寻 址 cache。 其 劣势 在 于 增加 了 L1 cache 传输 
时 延 。 

图 10-17b 中 的 组 织 结构 使 用 虚拟 地 址 寻 址 的 cache， 其 使 用 一 个 单独 的 TLB 在 对 该 物 
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理 存 储 器 的 访问 之 前 快速 转换 来 自 最 低 等 级 cache (本 例 中 为 L2 cache) 的 虚拟 地 址 为 相应 
的 物理 地 址 并 传输 给 物理 存储 器 。 然 而 ， 这 种 组 织 结构 并 不 常用 ， 其 在 每 次 进程 切换 时 要 
求 OS 来 清空 所 有 的 cache。 如 果 没 有 清空 ，cache 无 法 辨别 不 同 进程 同一 虚拟 地 址 ， 例 如 
图 10-13 中 进程 0 中 VPN = 5 和 进程 1 中 VPN = 5。 这 种 组 织 结构 的 优势 在 于 其 不 会 增加 
Licache 的 时 延 。 


来 自 CPU 的 虚拟 地 址 (VA ) 
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d:1 如 果 为 1， 若 页 在 物理 存储 器 中 ， 保护 位 : 读 、 写 、 用 户 /OS 页 等 
表示 其 备份 被 修改 ( AEB ) 
u:1 如 果 为 1， 表 示 该 页 最 近 被 使 用 过 


10-16 全 相 联 TLB 数据 通路 ， 说 明 TLB 读 过 程 (未 显示 所 有 细节 )， 缺失 将 导致 MMU 转换 一 个 
虚拟 地 址 到 物理 地 址 


TCB 缺 失 


在 图 10-17c 的 组 织 结构 中 ， 在 每 个 Ll cache 中 和 宜人 和 信 了 一 个 TLB， 如 图 10-18 所 示 ， 使 
用 一 个 标记 存储 器 存储 PPN 并 以 PPN 为 标记 。 在 一 次 cache 访问 过 程 中 ,命中 或 是 缺失 是 
通过 比较 由 TLB 得 来 的 PPN 和 从 标记 存储 器 中 获取 的 PPN 来 确定 的 。 这 个 cache 被 称 为 虚 
拟 地 址 寻 址 但 使 用 物理 地 址 标记 的 ， 如 AMD Opteron 处 理 器 中 使 用 的 cache 采用 这 种 组 织 
结构 。 

这 种 组 织 结构 有 两 大 优势 : 1 ) 其 使 用 物理 地 址 寻 址 的 cache, 2) HÆ L1 cache 的 延 返 最 
小 ， 与 图 10-17b 中 相同 。 然 而 ， 这 种 组 织 结构 的 劣势 在 于 每 个 Ll cache 的 大 小 必须 小 于 或 
等 于 一 页 的 大 小 。 例 如 ， 如 果 页 大 小 为 4KB，L1 cache 最 大 大 小 为 4KB。 使 用 这 种 组 织 结 
构 的 高 性 能 处 理 器 需要 采用 大 尺寸 页 的 虚拟 存储 髓 系统 。 


o KF 





c) 虚拟 地 址 寻 址 、 物 理 地 址 标记 L1 cache 
10-17 不 同 的 处 理 器 组 织 结构 : a) L1 cache 延迟 较 长 ，b) L1 cache 延迟 较 短 ， 但 OS 在 每 次 进 
程 切换 时 必须 清空 cache, c) L1 cache 延 时 较 短 ， 但 TLB 的 大 小 必须 比 页 大 小 小 


来 自 CPU 的 虚拟 地 址 ( VA ) 
虚拟 页 号 (VPN) 页 偏 移 


| | \ 索引 
(楼 或 组 ) | 全 





TLB Æ 
全 相 联 TLB ( 10-16 ) 


10-18 cache PRA TLB 组 织 结 构 
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此 外 ， 对 于 图 10-17a 和 图 10-17c PAY TLB, ， 处 理 器 也 可 以 包含 一 个 2 级 (L2) TLB, 
Ail L2 cache 相似 。L2 级 的 TLB 可 存储 更 大 量 级 的 PPN。 如 果 在 一 级 TLB 中 搜索 一 个 PPN 
产生 一 个 一 次 未 命中 ， 将 在 L2 TLB 中 继续 搜索 。 如 果 搜 索 还 是 未 命中 ，MMU 将 触发 一 个 
目标 VPN 到 相应 的 PPN 的 转换 。 一 般 情况 下 ， 一 个 L2 TLB 要 远 远大 于 LI TLB， 其 采用 
直接 映射 或 组 相 联 映射 的 cache. 
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练习 


10.1 我 们 希望 提升 例 10-1 中 估计 的 存储 器 平均 时 延 。 假 设 设 计 存 储 器 单元 时 使 用 DDR SDRAM 来 
代替 SDRAM， 请 重新 估计 存储 器 平均 时 延 。 

10.2 ”计算 例 10-1 中 的 预 估 平 均 时 延 适用 于 计算 峰值 性 能 。 假 设 在 最 坏 场景 中 ， 请 求 事务 和 响应 事务 
均 不 可 重 又 。 请 重新 计算 预 估 的 存储 器 平均 时 延 ， 假 设 每 次 SDRAM 访问 〈 从 行 地 址 发 射 到 第 
一 个 数据 项 出 现在 总 线 上 ) 需要 5 个 SDRAM 时 钟 周期 ， 忽 略 使 一 行 无 效 所 需要 的 时 间 。 

10.3 考虑 CPU 循环 入 次 访问 下 列 4 个 存储 器 地 址 ,假设 存储 器 地 址 分 割 为 标记 、 槽 号 和 偏 移 ， 如 图 
所 示 ， 完 成 以 下 内 容 : 


0x3C1C (16 位 地 址 ) 
0x0421 
0x041F 
0x0C88 
标记 “as 偏 移 


a. 确定 在 第 一 次 循环 中 缺失 的 次 数 ， 假 设 cache 初始 化 为 空 。 
b. 确定 循环 和 N 次 总 的 缺失 次 数 ， 假 设 cache 初始 化 为 空 。 
c. 假设 cache 映射 采用 两 路 组 相 联 。 计 算 标 记 、 组 号 、 偏 移 域 的 大 小 ， 确 定 在 第 一 次 循环 中 缺 
失 的 次 数 ， 假 设 cache 初始 化 为 空 。 
d. 确定 循环 入 次 总 的 缺失 次 数 ， 假 设 cache 初始 化 为 空 ， 使 用 循环 替换 策略 。 
10.4 使 用 以 下 地 址 重新 完成 10.3 中 的 问题 a ~ d- 


0x0C1C (16 位 地 址 ) 
0x0521 

0x041F 

0x4D28 


10.5 使 用 以 下 地 址 重新 完成 练习 10.3 中 的 问题 a ~ do 


Ox3C1F (16 位 地 址 ) 
0x042C 

0x0460 

0x3C1D 


10.6 ”使 用 以 下 地 址 重新 完成 练习 10.3 中 的 问题 a ~ d, 但 是 假定 对 于 c Al d 部 分 采用 4 路 组 相 联 cache. 
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10.7 


10.8 


10.9 


10.10 


10.11 


10.12 


10.13 


#10 F 
0x3C17 (16 位 地 址 ) 
0x3817 
0x3917 
0x1C17 
假设 主 存储 器 为 64KB ，cache 大 小 为 4KB ， 块 大 小 为 16B， 对 于 直接 映射 cache， 确 定 标 记 、 


槽 号 和 偏 移 域 的 大 小 。 

考虑 一 个 4 路 组 相 联 cache， 讨 论 实现 以 下 替代 算法 的 复杂 性 〈 如 硬件 需求 )。 

a. 轮转 方式 : 循环 选择 一 组 中 的 每 一 行 ， 先 进 先 出 方式 〈 例 如 ， 放 置 到 槽 0、1、2、3、0、1、2 F). 

b. LRU: RRR EAA. GER: 考虑 一 个 4x4 和 矩阵 、 和 矩阵 中 每 个 点 为 一 个 记录 ， 记 录 
大 小 为 1 位 的 4 元 素 LRU 算法 ， 假 设 4 个 槽 标号 为 0 ~ 3, 每 当 一 个 槽 被 访问 时 ， 和 矩阵 中 
相应 的 1 行 置 为 1， 再 将 相应 的 4 列 置 为 0。 例 如 ， 若 第 一 次 槽 0 被 访问 ， 矩阵 第 0 行将 变 
为 (0111 ) ，， 和 矩阵 其 他 几 行 保持 为 (0000 ) 2. RK PRA 2, FI, 矩阵 中 每 行为 
(0101)，、(0000)，、(1101 )2 AI (0000 )，>。LRU 算法 将 选中 行 值 为 0 (0000 ) 2 HAF.) 

c. 随机 替换 : 在 每 个 组 中 ， 随 机 蔡 换 某 一 个 模 。 

考虑 图 10-10 中 的 直 写 协议 。 请 确定 当 高 级 语言 程序 语句 “A = 1 ; ”第 一 次 执行 时 FSD 状态 

转移 。 

考虑 图 10-11 中 的 MESI cache 协议 。 请 确定 当 高 级 语言 程序 语句 “A = A+1;” 第 一 次 执行 时 

FSD 状态 转移 。 

考虑 在 访问 未 共享 的 变量 时 ,发 生 的 MESI Iru EM Ewu > M 转换 ， 请 陈述 在 编写 多 线程 程 

序 时 ， 如 何 使 用 以 上 信息 来 使 程序 在 多 核 或 多 处 理 器 系统 中 运行 更 加 有 效 。 

考虑 一 个 包含 CO 和 C1 两 个 MESI cache 的 双 处 理 器 系统 ， 假 设 处 理 器 执行 两 个 线程 TO0 和 

T1， 其 共享 变量 A， 请 概括 MESI 转换 Exmwz 一 了 发 生 时 的 场景 ， 假 设 存 储 器 块 BA 包含 A。 

考虑 图 10-9 中 的 系统 和 以 下 两 个 线程 T0 和 T1。 假 设 最 初 x=0 且 ”= 0，P0 执行 TO0，P1 执 

行 T1，B: 包含 x*，B, 包含 y。 使 用 以 下 表格 说 明 TO 和 T1 执行 时 在 cache PHI B, Al B, 的 状 

态 转换 。 在 汇编 代码 列表 中 ， 与 存储 器 相关 执行 的 执行 顺序 如 表 所 述 。 例 如 ，T0 先 执 行 “ STA 

(y)”(/1)， 接 着 Tl 执行 “LDA (x)” (//2) 等 等 。 并 说 明 在 每 种 情况 下 存储 器 更 新 或 最 终 更 新 
的 次 数 。 





线程 0 线程 1 
程序 代码 累加 器 ISA 汇编 代码 (第 8 章 ) 
y=1; LDA 0 white (x = = 0) L1: LDA (x) //2, 4 
x=1; STA (y) //1 { } //wait CMP 0 
LDA 1 y=y+ l; JEQ L1 
STA (x) //3 LDA (y) //5 
ADD 1 
STA (y) //6 
更 新 cache 或 存储 器 或 两 者 都 





更 新 (WRA) 






在 C1 中 的 
TO: STA (y) /1 
T1: LDA (x) //2 
TO: STA (x) //3 
T1: LDA (x) //4 
T1: LDA (y) //5 


T1: STA (y) //6 








10.14 


10.15 
10.16 


10.17 


10.18 


10.19 
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a. 直 写 协议 

b. 采用 MESI 协议 

c. 采用 MESIF 协议 

d. 采用 MOESI 协议 

再 次 完成 练习 10.13, 但 是 本 次 与 存储 器 相关 指令 执行 顺序 有 变 ， 顺 序 如 下 表 所 示 : 


线程 0 线程 1 
累加 器 ISA 汇编 代码 RM ISA 汇编 代码 
LDA 0 L1: LDA (x) //1, 4 
STA (y) //2 CMP 0 
LDA 1 JEQ LI 
STA (x) /1/3 | ~ LDA(y) //5 
ADD 1 
STA (y) //6 


简略 解释 当 一 个 cache 变 为 一 个 热点 时 ， 为 何 会 增加 平均 存储 器 时 延 。 

在 下 列 结构 中 ， 陈 述 存储 器 何 时 进行 更 新 : 

a. 采用 MESI 协 议 的 基于 总 线 的 UMA 

b. 采用 MESIF 协议 的 NUMA 结构 

c. 采用 MOSEI 协议 的 NUMA 结构 

假设 系统 含有 16KB 的 虚拟 存储 空间 ， 页 大 小 16B，2KB 的 物理 存储 器 ， 完 成 以 下 内 容 : 
a. 确定 虚拟 页 数量 和 物理 页 数量 。 

b. 假设 页 表 中 每 条 记录 为 2B ， 页 表 最 大 大 小 为 多 少 ? 

c. 请 设计 一 个 页 表 结 构 来 转换 16 位 的 虚拟 地 址 为 11 位 的 物理 地 址 。 

考虑 一 个 TLB ， 回 答 以 下 问题 : 

a. 简单 解释 采用 TLB 的 目的 (如 : 当 不 采用 TLB 时 的 区 别 )。 

b. 解释 为 何 TLB 需 采 用 全 相 联 的 cache (W: 当 采 用 直接 映射 的 cache 时 有 何不 同 )。 
讨论 在 硬件 中 使 用 一 个 使 用 位 (u) 而 不 是 LRU 算法 的 好 处 ， 可 参考 练习 10.8。 
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10.20 
10.21 


10.22 


10.23 


10.24 


10.25 


10.26 


计算 机 安全 (虚拟 存储 器 安全 ): 见 练习 11.32 (也 可 参见 11.11 节 )。 

计算 机 安全 (对 虚拟 存储 器 的 重 放 攻击 ) : 见 练习 11.33 关于 如 何 检测 对 虚拟 存储 器 的 重 放 攻 击 
(也 可 参见 11.11 47). 

计算 机 安全 (存储 器 认证 任务 ): 见 练习 11.34 (也 可 参见 11.9.2 节 和 11.11 节 )。 

计算 机 安全 (阻止 信息 泄露 ): 见 练习 11.35 关于 对 存储 器 的 随机 加 密 (也 可 参见 11.11 节 )。 
计算 机 安全 (程序 安全 执行 ) : 见 练习 11.37 关于 针对 安全 执行 如 何 建立 可 信 程 序 。( 也 可 参见 
11.11 Ph. 

计算 机 安全 (更 有 效 阻 止 信息 泄露 ) : 见 练习 11.38 关于 如 何 使 用 更 少 存储 器 来 阻止 信息 泄露 
(也 可 参见 练习 10.22). 

计算 机 安全 (支持 安全 执行 模式 的 虚拟 地 址 空间 结构 ) : 参见 练习 11.39 关于 如 何 分 配 多 个 虚拟 
地 址 空间 (也 可 参见 11.11.8 节 )。 
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计算 机 体系 结构 : 安全 





11.1 简介 


纵 观 前 文 ， 我 们 的 关注 点 主要 为 如 何 通 过 数字 设计 技术 和 计算 机 体系 结构 思想 来 提升 计 
算 机 性 能 ， 因 此 ， 需 要 采用 额外 的 技术 和 思想 来 设计 安全 计算 机 。 如 今 ， 使 用 计算 机 的 人 和 
组 织 越 来 越 多 ， 这 不 仅仅 产生 了 大 量 数据 ,很 多 新 的 应 用 软件 也 应 运 而 生 ; 但 是 某 些 软件 极 
有 可 能 存在 安全 漏洞 ， 从 而 给 从 个 人 黑客 到 网 络 战争 军队 等 一 大 批 网 络 攻击 者 提供 了 机 会 和 
利益 来 源 。 许 多 组 织 ， 包 括 政 府 ( 如 军事 部 门 )、 金 融 机 构 (如 银行 )、 基 础 设施 (如 电网 )、 
服务 型 行业 (如 法 律 部 门 )、 商 业 企 业 (如 电子 商业 )、 工 业 企 业 ( 如 工厂 控制 系统 ) 和 社交 网 
络 公 司 (如 Facebook) 等 在 内 都 有 需要 保护 的 数字 信息 财产 (程序 、 文 件 、 数 据 等 )。 

资产 ， 尤 其 是 电力 供应 网 络 和 工业 控制 系统 ， 可 能 含有 许多 安全 性 问题 [1]。 例 如 ， 其 
可 以 成 为 敌对 国家 网 络 战 争 的 目标 ， 敌 对 国家 非常 愿意 花费 时 间 和 资源 来 发 展 一 个 复杂 的 网 
络 攻击 设备 。 所 有 的 网 络 攻 击 问题 可 以 被 角色 化 为 以 下 三 种 安全 特性 : 

e 保密 性 : 资产 具有 隐蔽 性 ， 需 阻止 未 被 授权 的 访问 〈 例 如 穷 听 )， 这 种 资产 包括 程序 、 

文件 和 数据 等 ， 其 存储 在 硬盘 上 ， 某 些 情况 下 ， 也 包含 存储 在 内 存 中 的 数据 和 指令 。 
e SHE: 保证 可 检测 到 未 授权 访问 对 资产 内 容 的 修改 ， 如 果 可 以 ,阻止 修改 行为 的 发 
生 。 例 如 ， 代 码 注 入 将 改变 程序 的 完整 性 ， 对 数据 的 非法 修改 将 改变 数据 库 的 完整 性 。 

eo 可 用 性 : 阻止 对 合法 用 户 的 服务 进行 延迟 的 攻击 。 这 些 攻击 可 能 以 多 种 形式 存在 ， 如 
使 服务 器 负载 超重 。 亚 意 攻击 可 以 消耗 如 存储 器 和 网 络 带 宽 等 重要 的 资源 ， 也 可 以 
通过 使 服务 器 人 负载 超重 等 方式 减 慢 或 阻止 计算 机 执行 其 预定 服务 。 

三 种 安全 属性 的 重要 性 是 由 组 织 资 产 的 类 型 以 及 如 何 使 用 该 资产 所 决定 的 。 例 如 ， 对 于 
银行 家 来 说 ， 银 行 账户 的 完整 性 要 比 保密 性 重要 得 多 ,保护 资产 的 精确 平衡 要 比 资产 的 安全 
性 重要 。 相 似 的 ， 例 如 一 个 学 生 在 大 学 校园 中 访问 一 台 计 算 机 ， 计算机 的 一 个 异常 并 因此 造 
成 的 该 计算 机 在 几 小 时 内 不 可 用 并 不 是 非常 重要 。 另 一 方面 ， 对 于 政府 机 构 ， 如 军队 ， 这 三 
种 安全 属性 都 是 必 不 可 少 的 。 

由 于 计算 机 安全 涉及 的 范围 太 大 ， 其 包含 的 主题 范围 太 广 ， 所 以 在 本 章 中 ， 我 们 主要 
介绍 与 计算 机 结构 相关 的 计算 机 安全 话题 。 此 外 ， 即 使 是 在 与 计算 机 结构 相关 的 计算 机 安全 
范围 内 ， 该 范围 及 其 演化 还 是 过 于 广泛 ， 因 此 ， 我 们 在 本 章 中 主要 介绍 一 些 新 的 概念 和 正在 
研究 的 方法 ,具体 介绍 了 与 计算 机 结构 相关 的 计算 机 安全 概念 并 说 明了 一 些 新 的 具有 启发 性 
的 解决 方法 ， 此 外 ， 包 括 信息 流 追 踪 法 等 研究 方法 请 参考 延伸 阅读 或 其 他 书籍 。 信 息 流 追 
踪 法 要 求 存 储 器 中 每 一 个 危险 的 位 或 字 都 需要 标记 为 安全 的 或 不 安全 的 。 例 如 ， 通 过 IO 端 
口 读 入 的 数据 将 被 标记 为 不 安全 的 ， 而 系统 数据 将 被 标记 为 安全 的 。 当 被 标记 的 数据 项 进 
入 CPU 时 ， 其 将 被 追踪 ， 并 采用 一 些 控制 方式 来 阻止 未 授权 的 修改 CPU 状态 〈 例 如 寄存 器 ) 
的 行为 。 这 些 控制 方式 需要 额外 的 存储 器 空间 来 存储 标记 并 需要 对 硬件 设计 (逻辑 电路 、 数 
据 通 路 和 存储 器 组 织 结构 ) 进行 修改 。 
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当 对 部 分 软件 或 硬件 进行 开发 或 安装 时 ， 可 能 导致 一 些 安全 问题 。 而 如 今 ， 大 多 数 软件 
公司 和 硬件 公司 都 依赖 于 使 用 第 三 方 模块 来 进行 开发 ， 而 这 些 模 块 可 能 未 正确 设计 或 使 用 ， 
很 有 可 能 包含 一 些 木 马 病毒 〈 非 法 代码 或 HDL 模块 )， 计算 机 安全 问题 更 显得 尤为 重要 。 软 
件 安全 性 策略 和 安全 性 机 制 通常 是 基于 成 熟 的 模型 ， 例 如 在 军队 中 使 用 的 软件 模块 。 而 硬件 
安全 性 策略 和 安全 性 机 制 是 基于 一 系列 阻止 攻击 的 技术 。 本 章 中 将 介绍 一 些 已 知 的 安全 的 软 
件 模块 的 示例 和 采用 该 模块 的 程序 ， 并 介绍 适用 于 硬件 的 安全 策略 机 制 。 

虽然 对 于 攻击 者 而 言 有 无 穷 种 方式 来 利用 软件 安全 漏洞 进行 攻击 ， 但 是 软件 攻击 通常 是 
在 存储 器 中 插 人 无 效 数 据 或 将 数据 从 存储 器 中 的 一 个 位 置 复制 到 另 一 个 位 置 。 例 如 ， 思 考 一 
个 简单 的 C 语言 程序 ， 其 调用 “ strcpy” 库 函数 来 复制 其 命令 行内 容 到 一 个 在 子 程序 中 本 地 
声明 的 数组 (缓冲 区 ) 中 。 在 这 种 情况 下 ， 攻 击 者 可 以 使 用 特定 的 参数 值 来 “欺骗 ”CPU 并 
造成 缓冲 区 溢出 攻击 [2]。 总 体 而 言 ， 攻 击 者 可 以 使 用 在 程序 中 静态 分 配 的 或 动态 分 配 的 组 
冲 区 来 修改 存储 子 程序 返回 地 址 等 的 存储 器 堆栈 区 ， 通 过 在 缓冲 区 中 能 和 一段 恶意 代码 来 改 
变 在 堆栈 区 的 子 程序 返回 地 址 等 ， 使 得 系统 运行 这 一 恶意 代码 ， 人 允许 工具 或 程序 在 系统 特权 
模式 可 被 使 用 。 例 如 ,使 用 软件 攻击 故意 破坏 系统 或 使 系统 超 负荷 ， 使 得 系统 不 可 用 或 相对 
于 正常 状况 处 理事 务 效率 过 低 。 攻 击 者 也 可 以 获取 机 密 文 件 、 修 改 数据 库 、 触 发 一 个 使 硬件 
故障 的 硬件 特洛伊 病毒 或 泄露 机 密 信息 等 。 

当 攻击 者 独占 系统 时 ， 其 也 可 以 使 用 其 骗 或 其 他 技术 来 执行 物理 攻击 [3.5 攻击 
者 可 以 使 用 复杂 设备 来 欺骗 系统 或 观察 信号 ， 从 而 获取 访问 端口 化 设备 的 途径 或 在 该 设 
备 上 执行 逆向 工程 。 本 章 也 将 介绍 包括 欺骗 技术 在 内 的 用 于 执行 软件 /硬件 攻击 的 相关 
技术 。 

总 体 而 言 ， 因 为 一 个 系统 有 太 多 的 安全 性 漏洞 需要 填补 ， 所 以 不 可 能 对 一 个 安全 系统 中 
的 每 一 个 硬件 、 固 件 、 软 件 都 采用 安全 性 设计 、 开 发 、 安 装 ， 关 键 是 采用 可 信 计 算 基 (TCB) 
来 构建 必要 模块 从 而 实现 一 个 安全 系统 [6]。TCB 指 的 是 一 组 最 小 的 硬件 和 固件 以 及 其 安全 
实现 (设计 、 开 发 和 安装 ) 的 要 求 ， 它 的 设计 必须 是 安全 和 可 靠 的 ( 即 保持 可 信 )。 此 外 ， 根 
据 系统 对 安全 性 的 要 求 ，TCB 不 仅 要 包含 实现 安全 性 的 软件 ， 还 要 包含 执行 安全 性 策略 的 
软件 。 下 面 是 一 个 安全 程序 应 用 区 域 列表 : 

对 于 手持 设备 ， 与 主 计算 机 安全 地 交换 数据 并 防卫 物理 攻击 。 

对 于 系统 设计 者 ， 需 实现 安全 策略 机 制 来 阻止 对 系统 资源 的 未 授权 的 访问 ， 系 统 资 
源 包 括 密码 文件 、 系 统 堆栈 存储 区 等 。 

对 于 系统 设计 者 ， 需 实现 安全 策略 机 制 来 阻止 现 有 操作 系统 经 常 性 受到 损害 [3, 7-9]. 
对 于 软件 公司 ， 可 开发 并 建立 独立 安全 的 应 用 程序 安全 策略 机 制 。 

对 于 软件 公司 ， 安 全 地 传送 远程 安装 程序 。 

对 于 用 户 ， 可 以 文件 、 数 据 、 图 片 等 形式 隐藏 信息 ， 并 将 其 安全 地 存储 在 一 个 本 地 
或 远程 磁盘 驱动 器 上 ， 安 全 地 发 送 和 接收 邮件 ， 执 行 安全 的 远程 登录 等 。 

对 于 公司 ， 实 现 安全 策略 机 制 来 阻止 对 其 至 关 重 要 的 商业 资源 的 未 授权 的 访问 。 这 
些 资源 包括 个 人 数据 、 客 户 数据 、 知 识 产 权 等 。 

o 对 于 娱乐 公司 ， 只 向 已 授权 的 手持 设备 发 送 付 费 产 品 及 其 相关 信息 。 

对 于 云 计算 公司 ， 回 其 客户 提供 有 保证 的 计算 服务 。 

最 后 ， 本 章 将 介绍 用 于 实现 软件 / 硬件 安全 策略 机 制 机 密 性 和 完整 性 的 相关 技术 ， 并 提 
供 一 个 基于 处 理 器 和 协 处 理 器 的 TCB 架构 示例 和 其 应 用 区 域 。 
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11.1.1 安全 工程 方法 
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图 11-1 展示 了 安全 工程 方法 (SEM)， 为 设计 者 提供 了 逐步 的 处 理 过 程 来 确定 潜在 的 威 
p 
p 


胁 ， 开 发 所 需 的 安全 策略 和 机 制 ， 并 设计 、 
验证 和 评估 计算 机 架构 的 安全 性 。 对 用 户 场 
景 和 潜在 的 安全 问题 的 分 析 确 定 了 安全 风险 
的 范围 。 用 户 场景 通常 由 应 用 程序 决定 ， 可 
能 涉及 多 种 系统 ， 比 如 艇 人 式 系统 、 实 时 系 
统 和 分 布 式 系 统 ， 也 可 能 覆盖 很 多 行业 ， 包 
括 IT、 制 造 业 、 医 疗 保健 、 商 业 等 [10-11]。 
对 威胁 模型 、 安 全 策略 和 安全 机 制 的 分 析 可 
确定 一 系列 可 能 的 威胁 和 对 每 种 威胁 的 安全 
策略 和 处 理 机 制 。 

为 了 更 好 地 理解 SEM， 表 11-1 使 用 大 
学 资产 中 的 学 生成 绩 为 示例 说 明了 基于 学 生 


[466] 成 绩 的 安全 策略 机 制 开 发 过 程 。 
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图 11-1 安全 工程 方法 [12] 


表 11-1 开发 一 个 基于 学 生成 绩 的 安全 机 制 来 改变 学 生成 绩 


生成 一 个 成 绩 变化 表 ， 为 学 生 姓 名 、 学 生 ID 号 、 课 程 号 、 学 期 、 改 变 成 绩 的 原因 、 指 导 老 师 和 


个 完整 的 方式 来 传送 邮件 ， 传 送 方式 包括 使 用 校园 邮件 


A 法 描 述 
使 用 场景 如 何 改 变 学 生成 绩 
安全 问题 对 学 生成 绩 未 授权 的 修改 行为 
威胁 模型 错误 的 成 绩 
安全 策略 只 有 教授 该 课程 的 授课 老师 可 修改 学 生成 绩 

授课 老师 为 其 学 生 分 配 一 个 新 的 成 绩 
安全 机 制 部 门 主席 确认 成 绩 的 修改 

一 个 全 职 的 员工 〈 不 是 临时 工 ) 在 安全 的 大 学 数据 库 系统 中 录 人 成绩 
架构 部 门 主席 的 签名 分 配 空间 。 此 外 ， 使 用 一 

系统 或 手 送 到 学 生 记 录 办 公 室 

机 密 性 : 成 绩 变化 表 只 可 被 科 员 或 职工 手动 修改 ， 并 对 其 他 学 生 保密 
验证 完整 性 : 主席 的 签名 授权 了 一 个 完整 的 成 绩 变化 表 

可 用 性 : 依赖 于 教授 改变 学 生成 绩 的 决定 
评估 成 绩 改变 表 的 代价 ， 需 要 完成 和 处 理 成 绩 变 化 表 的 时 间 ， 等 


在 表 11-1 中 ， 用 户 场 景 可 以 表示 为 一 系列 的 用 例 ， 威 胁 模 型 可 表示 为 一 系列 的 威胁 向 
量 。 总 而 言 之 ， 一 个 威胁 向 量 可 被 视 为 一 个 引导 对 个 人 的 、 商 业 、IT 或 其 他 领域 信息 的 偷 
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表 11-2 列 出 了 数据 存储 和 远程 服务 器 连接 的 两 个 计算 机 用 例 。 病 毒 和 其 他 类 型 的 恶意 
软件 ， 以 及 被 盗窃 或 受到 其 他 损害 的 计算 机 ， 具 有 一 定 的 安全 风险 。 一 个 恶意 软件 可 以 删 
除 、 修 改 或 偷 取 存储 在 硬盘 上 的 数据 。 一 个 包含 有 价值 信息 的 计算 机 (如 人 台式 机 、 笔 记 本 等 ) 
或 手持 设备 (如 智能 手机 ) 的 丢失 或 窃取 也 具有 一 定 的 安全 风险 ; 存储 在 硬盘 或 flash 存储 
喜 中 的 数据 也 是 易 被 算 改 的 。 此 外 ， 如 果 丢 失 的 设备 属于 公司 ， 这 给 攻击 者 提供 了 访问 公司 


[467] 服务 器 的 不 正当 的 途径 ， 可 能 对 公司 资源 造成 损坏 、 对 公司 重要 文件 进行 删除 或 修改 或 窃取 
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公司 商业 专利 等 。 
表 11-2 用 于 两 个 计算 机 使 用 场景 的 五 步 SEM 过 程 
使 用 场景 安全 机 制 
文件 存储 、 tial se er 保持 硬盘 上 的 数据 处 于 “ 锁 住 ”状态 ， 需 要 
数据 存储 | 证 数据 (如 用 户 名 / 密 | syg | 保持 数据 | “钥匙 ”来 解锁 ， 没 有 钥匙 ， 数 据 保持 机 密 (以 
在 硬盘 上 ”| 码 ) 等 ， 这 些 数据 存储 机 密 性 ”| 不 可 知 的 方式 存储 )， 钥 匙 不 存储 在 硬盘 上 ， 而 
在 硬盘 上 ， 易 被 修改 存储 在 系统 的 硬件 中 


对 公司 的 每 个 笔记 本 电脑 使 用 双 端 口 锁 ， 使 
用 一 把 “钥匙 ”来 “ 锁 ” 住 存储 了 网 络 认 证 数 

认证 平台 | 据 的 磁盘 ， 并 隐藏 钥匙 使 之 与 计算 机 的 硬件 相 
(如 笔记 本 ), | 关 ， 维 护 另 一 把 与 公司 或 与 公司 信任 的 公司 相 
而 不 是 用 户 | 关 的 “钥匙 "， 使 用 第 二 把 “钥匙 ”来 解锁 收 
到 但 锁 住 的 网 络 认证 数据 ， 当 笔记 本 丢失 或 被 
偷窃 时 使 第 二 把 钥匙 为 无 效 





网 络 身 份 | 存储 在 硬盘 上 的 网 
认证 络 认 证 数据 易 被 修改 ”| 授权 的 访问 


* 现在 安全 机 制 由 通俗 术语 陈述 


表 中 两 个 用 例 都 包含 了 潜在 的 安全 漏洞 、 一 个 威胁 模块 、 一 个 安全 策略 和 一 系列 安全 机 
制 。 然 而 ， 安 全 机 制 使 用 俗语 来 描述 ， 更 精确 的 解决 方式 将 在 之 后 给 出 。 


11.1.2 威胁 类 型 


对 安全 的 威胁 可 被 分 为 两 大 类 : 可 操作 的 威胁 和 可 发 展 的 威胁 。 

1. 可 操作 的 威胁 

可 操作 的 威胁 与 资产 类 型 和 使 用 场景 相关 ， 如 表 11-2 所 示 。 可 操作 威胁 也 与 用 于 实现 
安全 机 制 的 工具 相关 。 当 安全 机 制 设计 得 很 好 时 ， 其 采用 的 工具 (如 “ 锁 ”) 可 能 较 差 ; 例 
如 ,“ 锁 ”可 能 是 低 质 量 的 或 容易 解 开 的 。 关 于 可 操作 威胁 的 其 他 示例 将 在 后 文 讨论 。 

设备 ， 如 由 公共 事业 公司 安装 在 家 庭 中 的 智能 电表 或 是 在 紧急 情况 下 由 军队 人 员 或 消防 
员 或 紧急 医疗 人 员 使 用 的 便携 式 设备 ， 可 能 面临 额外 的 威胁 。 这 些 设 备 需要 使 用 安全 的 通信 
通道 来 与 主 计算 机 通信 ， 但 攻击 在 某 些 情况 下 ， 如 在 紧急 情况 下 ， 可 能 会 导致 通信 干扰 。 

物理 上 可 访问 的 远程 安装 设备 和 便携 式 设备 也 是 物理 攻击 的 目标 。 例 如 ， 安 装 在 汽车 中 
用 于 读 取 汽车 行驶 里 程 数 的 舱 入 式 设备 可 能 被 攻击 从 而 帘 改 某 些 旧 车 辆 的 行驶 里 程 数 。 相 似 
的 ， 高 科技 的 便携 式 设备 也 可 能 被 黑客 攻击 从 而 修改 或 逆 回 工程 的 功能 。 

2. 可 发 展 的 威胁 

这 些 威胁 依赖 于 用 于 软件 和 硬件 开发 的 可 信和 模型 ， 以 及 交付 和 安装 软件 。 一 般 情 况 下 ， 
不 完整 的 规范 、 不 正确 的 实现 和 不 正确 的 安全 策略 和 机 制 是 软件 、 硬 件 和 固件 漏洞 的 三 个 来 
源 。 通 常 ， 这 些 漏洞 是 无 意 产 生 的 ， 但 有 时 是 设计 师 故 意 设 计 的 。 

例如 ， 大 型 集成 芯片 〈 集 成 电路 ) 的 设计 ， 特 别 是 处 理 器 ， 可 以 包括 设计 师 注 入 的 恶意 
电路 ， 如 在 设计 [13] 中 为 了 某 种 目的 添加 额外 的 硬件 描述 语言 (HDL) 代码。 总 体 而 言 ， 故 
意 造 成 的 漏洞 在 验证 过 程 中 更 难 被 检测 。 多 种 因素 ， 包 括 在 硬件 设计 中 对 第 三 方 “ 软 件 ” 组 
件 (如 Verilog 模块 ) 越 来 越 多 的 使 用 增加 了 可 被 攻击 的 漏洞 。 


11.1.3 ”访问 控制 和 类 型 
K 11-2 中 描述 的 数据 存储 安全 机 制 是 设计 用 来 保护 存储 在 硬盘 上 的 数据 避免 其 被 恶意 
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软件 攻击 和 物理 攻击 。 其 他 的 使 用 场景 要 求 机 制 限制 用 户 访 问 。 例 如 ， 在 一 个 组 织 中 ， 需 指 
明 哪 些 人 员 可 以 访问 雇员 的 个 人 信息 (例如 薪水 、 社 会 安全 号 码 等 )， 可 能 只 有 雇员 的 管理 
者 可 以 被 允许 检验 雇员 的 个 人 信息 ， 雇 员 信息 对 其 他 雇员 必须 保密 。 

相似 的 ， 在 一 个 计算 机 系统 中 ， 只 有 系统 程序 ， 而 不 是 应 用 程序 ， 可 以 访问 系统 数据 。 
这 样 的 安全 机 制 被 称 为 访问 控制 。 使 用 访问 控制 列表 (ACL)， 例 如 Linux/UNIX 系统 中 使 用 
ACL， 决 定 了 每 个 用 户 可 访问 的 文件 和 文件 夹 。 用 户 可 使 用 命令 “ chmod” 来 给 各 个 文件 和 
文件 夹 分 配 读 (r) 5 (w) 和 执行 (x) 等 权限 。 例 如 ， 对 于 文件 fpgo， 其 最 开始 分 配 所 有 用 
户 的 读 写 (rw-) 权限 ， 使 用 命令 “chmod 640 foo” 给 拥有 者 (如 Joe Smith) 分 配 读 写 OM 
过 二 进 制 中 的 110 表明 rw-) 权限 ， 给 该 组 中 的 其 他 用 户 分 配 只 读 (通过 二 进 制 中 的 100 表 
HH r--) 权限 ， 给 其 他 用 户 分 配 不 可 访问 〈 二 进 制 中 000 表示 ---)。 如 下 所 示 : 


>ls -1 
-rw-rw-rw- 1 smithjoe faccsc 5 May 22 12:32 foo 


>chmod 640 foo 
>ls -1 
-rw-r----- 1 smithjoe faccsc 5 May 22 12:33 foo 


通过 使 用 ACL， 即 使 文件 和 文件 夹 不 是 隐藏 的 ， 其 仍然 是 秘密 的 并 且 不 可 被 其 他 用 户 
访问 。Linux/UNIX 的 ACL 是 一 种 自主 控制 访问 的 示例 ， 因 为 其 每 个 用 户 都 可 决定 给 其 文 
件 和 文件 夹 分 配 怎样 的 访问 权限 ， 另 一 方面 ， 基 于 规则 的 强制 访问 控制 对 一 个 组 织 中 的 所 有 
资产 (对象) 和 主体 (人 和 程序 ) 强制 执行 一 组 保密 性 和 完整 性 的 安全 规则 。 例 如 ， 当 只 有 
雇员 的 主管 可 被 允许 检查 用 户 的 个 人 信息 ， 这 种 强制 访问 控制 被 称 为 权限 表 (CL) [14, 15]。 
每 个 主体 被 分 配 一 系列 的 权限 一 一 组 织 中 所 有 对 象 允 许 执行 的 一 系列 动作 。 男 一 方面 ， 由 
对 象 来 组 织 ， 而 不 是 由 主体 来 组 织 的 强制 访问 控制 被 称 为 强制 ACL， 与 早先 讨论 的 Linux/ 
UNIX 中 任意 ACL 示例 相似 。 为 了 阐述 示例 ， 表 11-3 说 明了 一 个 由 大 学 成 绩 政策 生成 的 访 
问 控制 矩阵 。 


表 11-3 ”学 生成 绩 的 访问 控制 矩阵 


WR: 成 绩 
-e REC 
TA Ses O OOE Secs R 
教授 ，x i | E RW 
mime | rR |. rR | R 


在 该 表 中 ， 每 一 行 是 一 个 主体 教授、 学 生 等 )， 每 一 列 是 一 个 对 象 〈 课 程 )， 和 矩阵 的 主 
体 是 对 学 生成 绩 的 一 系列 访问 权限 。 访 问 权 限 被 定义 为 读 (R 或 r)、 写 (W 或 w)、 可 读 可 
写 、 既 不 可 读 也 不 可 写 。 大 写字 母 R 和 W 表明 对 某 一 个 单独 课程 的 所 有 成 绩 的 读 权限 和 写 
权限 。 小 写字 和 母 r 和 w 表明 对 某 一 课程 的 分 别 对 每 一 个 成 绩 的 读 或 写 权 限 。 在 表 中 ， 既 不 可 


“一 读 也 不 可 写 权 限 用 空白 表示 。 该 表 中 ， 包 含 一 位 主席 p、 两 位 教授 x、y、 两 位 学 生 sl Al s2, 


一 位 职工 雇员 e 和 3 种 课程 分 别 标记 为 4、B、C。 从 表 中 可 看 出 ， 教 授 x 可 为 选修 课程 4 和 
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课程 C 的 学 生 分 配 (R/W) 成 绩 ， 教 授 y 可 为 选修 课程 B 的 学 生 分 配 (RW) 成 绩 ， 学 生 yl 
可 以 读 取 其 课程 4 和 课程 C 的 成 绩 ， 学 生 s2 可 以 读 取 其 课程 B 和 课程 C 的 成 绩 。 该 矩阵 中 
没有 单独 的 写 权 限 。 

如 果 一 个 访问 控制 矩阵 是 根据 其 行内 容 来 存储 ， 该 矩阵 将 生成 一 个 权限 表 。 例 如 ， 主 席 
Pp. Bx 和 学 生 s1， 每 个 人 都 含有 下 列 的 权限 表 ， 关 系 如 下 所 示 : 


pe fA, Rl B, RB, (Cc) Ri) 

a: (A: KR), (Hy Ws (CG Bs E W)} 

Gi: din, 2), tC; =)} 

例如 ， 给 教授 x 分 配 的 权限 是 对 课程 4 和 课程 C 的 所 有 成 绩 的 读 权 限 和 写 权 限 。 而 给 
学 生 s1 分 配 的 权限 是 对 其 选修 的 课程 4 和 课程 C 的 读 权限 。 

男 一 方面 ， 如 下 对 刘 程 4 MRE B 的 权限 分 配 ， 当 访问 控制 矩阵 是 根据 其 列 内 容 来 存 
储 的 ， 该 矩阵 将 生成 一 个 强制 ACL。 如 下 : 


A: fip, 有 

Be iit, Rin ty Bi. te. We a Bl. (62, By vant 

例如 ， 课 程 4 的 访问 权限 表 表 明 主 席 p 和 职工 e 对 选修 课程 的 所 有 学 生 的 成 绩 具 有 读 权 
限 ， 教 授 x 对 选修 课程 的 所 有 成 绩 具 有 读 权 限 和 写 权限 ,学生 sl 只 对 其 个 人 的 成 绩 具 有 读 
权限 。 因 为 一 个 ACL 是 采用 面向 对 和 象 机 制 的 ， 其 更 容易 改变 一 个 对 和 象 的 权限 一 一 例如 ， 将 
学 生 s3 加 入 课程 4 中 。 

当 一 个 程序 希望 访问 一 个 对 象 (如 一 个 文件 、 数 据 项 、 确 定 的 存储 器 地 址 、 网 络 连 接 、 
USB 端口 等 ) 时 ， 其 必须 被 包含 在 该 对 象 的 访问 列表 中 ， 否则 ,访问 将 被 阻止 。 相 反 ，CL 
是 面向 主体 的 ， 故 而 一 个 主体 可 以 传送 其 分 配 的 全 部 或 部 分 权限 表 给 男 一 个 主体 。 例 如 ， 教 
E x 可 以 传送 其 权限 数据 项 CC, W) 给 主席 p， 从 而 使 得 主席 p (而 不 是 教授 x) 具有 给 选修 
课程 C 的 所 有 学 生 分 配 成 绩 的 权限 。 

虽然 基于 ACL 的 系统 容易 实现 ,但 基于 CL 的 系统 可 以 提供 更 好 的 保护 ， 用 户 或 进程 
只 可 以 访问 其 权限 列表 中 的 对 象 。 基 于 CL 的 系统 也 可 以 提供 更 精细 的 保护 ， 传 送 的 权限 可 
被 限制 为 一 部 分 数据 、 存 储 地 址 、 任 务 等 。 例 如 ， 教 授 x 可 以 只 传送 分 配 单个 成 绩 的 权限 ， 
in (C, w(i))， 给 主席 p， 其 中 索引 i 是 用 于 确定 一 个 特定 的 学 生 ， 例 如 选修 课程 C 的 学 生 
52。 然 而 ,一 旦 一 个 权限 被 传送 ， 无 法 控制 该 权限 再 次 被 传送 给 男 外 的 主体 。 一 个 系统 可 以 
使 用 混合 的 访问 控制 方式 来 获取 ACL 和 CL 模式 的 优点 ， 关 于 其 他 访问 控制 方式 ， 如 基于 
角色 的 访问 控制 和 基于 发 起 人 的 访问 控制 ， 将 在 下 文 阐述 。 


11.1.4 安全 策略 模型 


具有 保密 性 和 完整 性 的 安全 策略 模型 必须 能 够 为 一 个 计算 机 系统 的 所 有 硬件 和 软件 组 件 
创建 一 个 完整 的 安全 外 围 环 境 。 例 如 ， 考 虑 火焰 病毒 ， 其 可 以 启动 一 个 计算 机 的 音频 系统 从 
而 通过 网 络 来 窃听 并 传输 办 公 室 等 机 密 的 谈话 内 容 、 捕 获 屏幕 画面 、 记 录 键 盘 按 键 ， 其 至 偷 
取 计 算 机 附近 开启 蓝牙 功能 的 手机 中 的 数据 。 相 似 的 ， 如 震 网 病毒 等 网 络 武器 可 通过 通用 串 
行 总 线 ( USB) 接口 进入 工业 控制 系统 中 ， 并 改变 控制 系统 的 操作 规范 ， 例如， 其 可 以 使 一 
个 工业 发 动机 运转 过 快 从 而 造成 设备 损坏 。 

强制 访问 控制 一 般 是 基于 一 些 已 被 验证 机 密 性 和 完整 性 的 安全 策略 模型 ， 例 如 使 用 于 军 
队 和 商业 环境 中 的 安全 策略 模块 。 安 全 策略 模块 具有 多 级 别 (分 等 级 的 ) 或 多 方面 (区 划 的 ) 


368 #211 


的 特点 。 下 面 是 对 一 些 著名 的 多 级 别 和 多 方面 的 安全 策略 模型 的 描述 。 

1. 多 等 级 模型 

多 等 级 模型 主要 用 于 采用 自然 等 级 访问 信息 的 场景 ， 如 军队 或 医疗 办 公 。 在 军队 中 ， 主 
体 (如 人 ) 和 对 象 (如 文件 ) 都 进行 了 分 类 ， 如 按 “ 最 高 机 密 ”、“ 机 密 ”、“ 保 密 ” 和 “未 分 类 ” 
分 类 。 在 医疗 办 公 中 ， 只 有 医生 可 被 允许 访问 特定 病人 的 医疗 记录 。 通 过 安全 策略 模型 可 控 
制 拥有 对 每 种 文件 或 医疗 记录 读 写 权限 的 人 员 。 

Bell-LaPadula (BLP) [16] 是 一 种 用 于 军队 中 为 了 提高 机 密 性 的 多 等 级 安全 模型 。BLP 
中 的 “不 可 向 下 写 ” 策 略 会 阻止 含有 更 高 许可 的 职员 写 或 添加 一 个 较 低 分 类 等 级 的 文件 。 此 
外 ， 该 策略 阻止 了 信息 流 从 高 等 级 对 象 向 低 等 级 对 象 的 转移 。 例 如 ， 一 个 拥有 最 高 机 密 权 
限 的 腐败 的 军队 将 军 对 一 个 已 分 类 文件 的 读 操作 和 传输 信息 到 一 个 未 分 类 文件 的 操作 将 被 阻 
止 。 这 被 称 为 BLP 模型 的 *- 属性 。 在 一 个 计算 机 系统 中 ，*- 属性 可 阻止 将 军 复制 一 个 已 
分 类 文件 到 一 个 USB flash 存储 器 中 ， 这 个 存储 器 在 该 系统 中 可 能 具有 较 低 等 级 。( 此 外 ， 所 
有 的 高 等 级 人 员 可 能 不 允许 携带 智能 手机 到 他 们 的 办 公 室 中 。) 

BLP 的 “不 可 向 上 读 ” 策 略 将 阻止 低 等 级 的 具有 较 低 许可 的 主体 访问 具有 较 高 等 级 的 
对 象 。 该 策略 也 会 阻止 一 个 军队 中 未 被 分 类 的 职员 对 最 高 机 密 的 文件 的 读 取 行为 。 此 外 ， 该 
策略 将 阻止 从 网 络 上 下 载 的 恶意 软件 ， 该 软件 在 系统 中 拥有 较 低 的 许可 ， 对 高 等 级 对 象 (如 
密码 文件 或 机 密 的 用 户 文件 ) 的 访问 行为 。 

完整 的 Biba 模型 [17] 采用 “不 可 向 上 写 ” 和 “不 可 向 下 读 ” 策 略 。 主 体 和 对 象 都 分 配 
了 完整 性 级 别 或 标记 )， 例 如 ， 系 统 文件 被 标记 为 高 等 级 而 网 络 文件 被 标记 为 低 等 级 。 “A 
可 向 上 写 ” 策 略 可 以 阻止 从 网 络 上 下 载 的 低 等 级 的 恶意 软件 对 高 等 级 系统 数据 的 修改 ， 例 如 
修改 一 个 递归 子 程序 存储 在 系统 堆栈 上 的 返回 地 址 。“ 不 可 向 下 读 ” 策 略 可 以 保证 某 程序 一 
旦 从 网 络 上 接收 数据 ， 立 刻 降 低 该 程序 的 完整 性 级 别 。 在 这 种 情况 下 ， 即 使 恶意 软件 以 某 种 
方法 获取 到 管理 员 权 限 (如 调用 一 个 root 脚本 )， 该 程序 的 完整 性 级 别 依旧 将 被 降低 从 而 使 
其 无 法 修改 密码 文件 ， 但 是 ， 在 这 种 情况 下 ， 即 使 BLP 策略 仍 在 运行 ， 恶 意 软件 依旧 可 以 
读 该 密码 文件 ， 并 通过 网 络 连接 传输 该 密码 文件 。 

当 BLP 策略 和 Biba 策略 都 被 使 用 , “Te ES” “ey Py” “WER “le Pie” WETE 
许 的 ， 因 而 ， 这 两 种 策略 的 混合 机 制 产生 了 一 种 更 为 强大 的 安全 模型 。 然 而 ， 这 两 种 策略 的 
混合 可 能 潜在 地 对 某 些 应 用 造成 访问 限制 ， 例 如 一 个 数据 必须 共享 的 数据 库 。LOMAC 是 一 
种 采用 Biba 策略 的 实例 ， 其 是 一 种 对 商业 的 Linux OS 的 强制 访问 控制 [18]。 

2. 多 边 模型 

多 边 模 型 主要 用 于 访问 的 信息 不 分 等 级 但 相互 隔离 的 情况 ， 例 如 ， 在 商业 交易 或 产生 利 
益 冲 突 等 活动 中 的 职责 分 离 。 

BLP 模型 的 保密 性 特征 并 不 适用 于 不 分 等 级 的 服务 型 企业 ， 如 律师 事务 所 、 会 计 师 事 
务 所 、 广 告 公司 等 含有 竞争 客户 的 企业 。 这 些 服务 型 行业 的 职员 可 能 会 收 到 一 些 敏 感 的 客户 
信息 ， 而 这 些 信 息 是 必须 被 保护 的 并 且 不 可 以 与 同行 业 的 其 他 顾客 分 享 。 这 种 类 型 的 信息 保 
密 性 并 不 是 多 等 级 的 ， 而 是 多 边 的 。 中 国防 火 墙 [19] 的 多 边 模式 是 设计 用 来 阻止 利益 冲突 。 

例如 ,一 个 有 来 自 不 同行 业 的 客户 (如 银行 、 石 油 公 司 等 ) 的 法 律 公 司 ， 不 应 允许 其 雇 
员 从 事 有 利益 冲突 并 可 能 导致 客户 的 商业 信息 (如 花旗 银行 ) 泄露 给 客户 同行 业 (例如 ， 威 
尔 斯 法 戈 银 行 ) 的 其 他 人 员 的 活动 。 

相似 的 ，Biba 这 一 多 等 级 完整 性 模型 ， 不 可 工作 在 商业 环境 中 。 例 如 ， 输 入 购买 商品 
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命令 的 主体 (公司 的 雇员 或 软件 ) 应 该 与 接收 商品 和 为 商品 支付 的 主体 不 同 。 在 这 种 情况 下 ， 
使 用 一 个 多 边 的 完整 模型 ， 如 Clark Wilson [20] 模型 ， 实 现 了 在 商业 交易 中 的 职责 分 离 的 
原则 。 表 11-4 是 对 这 些 安全 模型 的 总 结 。 


表 11-4 多 级 安全 策略 模型 和 多 边 安全 策略 模型 


安全 策略 si 


“不 可 向 上 读 ”: 当 且 仅 当 CL (5) 宇 CL| 一 个 LC-S (如 下 载 的 软件 ) 不 可 访问 
(O) 时 ， 主 体 5 可 以 读 取 对 象 O 内 容 一 个 HC-O (如 系统 数据 ) 


BLP: 保密 性 
“不 可 向 下 写 ”: 当 且 仅 当 CL (S) < CL| 一 个 HC-S (如 系统 程序 ) 不 可 以 通过 
(0) 时 ， 主 体 5 可 写 对 象 0 LC-O (例如 网 络 连 接 ) 传输 数据 
=, a » ` a] 
时 ， 主 体 5S 可 以 读 取 对 象 O 
的 数据 ) 
“不 可 向 上 写 ”: 当 且 仅 当 LI(5S) > IL(O)| 一 个 LC-S (如 下 载 的 软件 ) 不 可 以 修 
A, EAS 可 以 对 对 象 O 执行 写 操 作 改 一 个 HC-O (如 系统 存储 器 堆栈 ) 
防止 利益 冲突 (COI); 既 需 要 自主 访问 | 访问 对 象 的 O E COrm 的 主体 S， 在 一 
“| 控制 也 需要 强制 访问 控制 ; 将 对 象 (Os)| 段 时 间 内 无 法 再 次 访问 对 象 0; E COL. 
组 织 为 COI 的 集合 ; 可 以 选择 访问 类 型 | 两 个 在 同一 个 法 律 公 司 工作 的 离婚 律师 ， 
(如 自主 访问 控制 ) 并 访问 该 COI 集 中 的 | 每 一 个 代理 某 对 已 婚 夫 妇 的 一 员 ， 两 者 不 
一 个 对 象 ; 还 引入 了 时 间 参 数 能 够 访问 其 他 成 员 的 离婚 文件 


如 果 主 体 51 在 对 象 O 上 运行 (Ain, iT 


数据 和 事务 的 完整 性 ; 执行 职责 分 离 | O 并 生 必 了 有 大 的 关系 LCT“, 
Clark-Wilson 如 果 注 册 交 易 CT, 介 许 访问 注册 数据 CD, CD=0), AF (S1,CT= "接收 "CD=0) 
模型 : 完整 性 ”| 是 一 个 无 效 的 关系 ; 关系 (82,CT= “接收 ”， 


将 生成 一 个 注册 关系 ,为 (CT, CD;) CD =O) 其 中 忠 关 8 将 依旧 为 一 个 有 效 
KA; 因此 ，S1 和 S2 有 各 自 的 职责 

S: 主体 (AREF); O: HR (文件 、 网 络 连 接 、USB 端口 、 数 据 等 ) 

LC: 低 等 级 或 低 类 别 ; HC: 高 等 级 或 高 类 别 

CL: 保密 性 等 级 ; IL 完整 性 等 级 ; CT: 注册 事务 ; CD: 注册 数据 






多 级 


多 边 


11.1.5 ”攻击 类 型 


可 发 展 的 威胁 ， 如 前 面 所 讨论 的 ， 可 以 产生 无 意 的 或 有 时 有 意 的 以 后 门 形式 存在 的 漏 
洞 。 硬 件 的 后 门 攻 击 通 常 是 由 于 用 于 建立 一 个 系统 的 硬件 模块 中 存在 一 个 或 多 个 恶意 电路 
(硬件 木马 )。 鉴 于 现代 集成 电路 的 大 尺寸 ， 设 计 中 的 恶意 电路 是 不 太 可 能 在 验证 过 程 中 被 发 
现 的 。 此 外 ， 几 乎 所 有 现在 制造 的 FPGA 和 其 他 一 些 忌 片 可 能 包含 一 个 远程 激活 的 “ 杀 死 开 
关 ”[21]。 因 此 ,硬件 后 门 攻击 可 能 会 出 现 严 重 的 安全 隐患 。 当 IC 在 一 个 系统 中 制造 和 安 
装 之 后 ， 一 个 恶意 电路 可 通过 使 用 恶意 软件 或 具有 对 系统 的 完全 访问 并 执行 一 个 触发 程序 来 
远程 触发 。 

另 一 方面 ， 如 病毒 和 间谍 软件 等 恶意 软件 的 示例 通常 是 利用 软件 中 无 意 留 下 的 后 门 来 进 
行 攻 击 。 当 专门 的 设备 接 和 人 硬件 中 时 ， 物 理 攻击 可 能 在 其 正常 运行 中 改变 其 行为 。 软 件 攻击 
和 硬件 攻击 使 用 的 攻击 机 制 很 相似 。 

除了 以 上 攻击 类 型 之 外 ， 还 有 诸如 侧 信 道 攻击 等 其 他 类 型 的 攻击 方式 ， 其 并 不 是 通过 后 
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门 的 方式 而 是 通过 收集 程序 运行 时 的 信道 信息 的 方式 来 进行 攻击 。 程 序 执行 时 间 是 一 种 侧 信 
道 攻 击 收 集 的 信息 示例 ， 这 种 攻击 被 称 为 定时 攻击 (参见 11.5.3 节 )， 在 程序 执行 过 程 之 中 
将 自然 释放 电磁 辐射 和 声学 信号 [22，23]， 此 外 还 有 基于 cache 的 侧 信道 攻击 [24]. 


11.2 ”硬件 后 门 攻击 


图 11-2 显示 了 硬件 木马 程序 的 三 种 触发 机 制 。 在 这 种 情况 下 ， 攻 击 者 通过 一 个 触发 输 
入 使 得 多 路 复 用 器 (MUX) 选择 恶意 电路 而 不 是 原来 的 电路 产生 的 结果 。 触 发 输入 可 能 是 数 
据 、 控 制 (例如 ， 指 令 )， 或 与 时 间 相 关 。 此 外 ， 它 可 以 由 一 个 数据 项 或 一 个 控制 项 或 两 者 
都 有 或 一 个 数据 序列 或 控制 输入 或 两 者 都 有 或 一 个 计数 器 (定时 器 ) 来 触发 攻击 。 后 者 的 情 
况 被 称 为 一 个 定时 炸弹 。 


数据 /控制 信号 





Tl: 触发 输入 


a) O : 一 个 数据 或 控制 项 b ) T: 定时 器 
S: 数据 或 控制 序列 


11-2 ”硬件 木马 示例 [12]: a) 数据 或 控制 触发 的 木马 ; 数据 或 控制 序列 触发 的 木 
马 ; b) 定时 器 触发 的 木马 (定时 炸弹 ) 


此 外 ， 攻 击 可 分 为 不 可 计算 的 和 可 计算 的 ,不 可 计算 的 攻击 的 主要 目标 包括 存储 器 、 寄 
Fas, MUX 和 其 他 不 对 数据 进行 计算 而 仅仅 存储 或 路 由 数据 的 设备 ;可 计算 的 攻击 的 目标 
主要 为 算术 逻辑 单元 (ALU)、 译 码 器 、 有 限 状 态 机 (FSM) 等 对 输入 数据 进行 处 理 的 设备 。 

此 外 ， 硬 件 后 门 攻击 可 能 会 采取 多 种 形式 。 例 如 ， 如 果 图 11-2 中 的 多 路 复 用 器 的 输出 
是 一 个 数据 项 并 且 攻 击 将 导致 MUX 的 输出 值 发 生变 化 攻击 ， 这 种 攻击 被 称 为 一 个 腐蚀 者 攻 
击 。 男 一 方面 ， 如 果 MUX 输出 位 代表 控制 信号 并 且 可 能 导致 更 多 的 事件 发 生 ， 这 种 攻击 被 
称 为 发 射 者 攻击 [13]。 

一 个 后 门 攻 击 可 能 会 改变 和 简化 通过 硬件 实现 的 加 密 算 法 ， 产 生 更 多 的 高 速 cache 流量 ， 
造成 计算 错误 ， 消 耗 更 多 的 能 源 等 。 下 面 的 部 分 提供 数据 、 控 制 和 定时 器 后 门 攻击 的 例子 。 


11.2.1 数据 和 控制 攻击 


图 11-3 说 明了 两 个 硬件 木马 的 例子 ， 一 个 采用 单 指令 触发 机 制 ， 另 一 个 采用 三 指令 序 
列 的 触发 机 制 。 在 图 11-3a 中 ， 木 马 是 由 一 个 使 用 一 个 特定 操作 数 “11001100…” 的 ADD 
指令 触发 ; 在 图 11-3b 中 ， 木 马 由 三 条 指令 序列 “ADD 0”, “ADD 0” 和 “ST 0” 触 发 。 以 
上 指令 仅仅 为 一 些 在 累加 器 ISA (第 8 章 ) 类 型 中 使 用 的 示例 。 这 两 种 类 型 的 木马 通常 会 使 
用 在 测试 过 程 中 不 太 可 能 检测 出 来 的 触发 输入 来 选择 。 例 如 ， 在 电路 测试 过 程 中 随机 选择 一 
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条 使 用 操作 数 为 “11001100…” 的 “ADD” 指 令 或 选择 三 条 指令 “ADDO”, “ADDO” M 
“STM 0” 的 概率 有 多 少 ? 


当 含 有 特殊 操作 数 110011001100…1100 的 “ADD” 指 令 执 行 时 后 门 被 激活 当 这 一 专门 序列 指令 执行 时 后 门 被 激活 





a ) 单一 指令 | b) 指令 序列 
图 11-3 ”硬件 木马 触发 机 制 示例 : a) 单一 指令 ; b) 指令 序列 


两 种 硬件 木马 都 需要 攻击 者 访问 硬件 ， 通 过 直接 连接 或 恶意 软件 ， 来 输入 必要 的 触发 输 
和。 对 于 图 11-3a 中 的 电路 攻击 者 必须 可 执行 “ADD” 指 令 而 对 于 图 11-3b 中 的 电路 攻击 者 
必须 可 执行 三 条 指令 序列 来 触发 攻击 。 


11.2.2 ”定时 器 攻击 


如 图 11-4 所 示 ， 和 定时 器 触发 木马 并 不 需要 攻击 者 访问 硬件 。 一 旦 计数 器 的 计数 降 为 0 时， 
木马 将 被 激活 。 因 为 在 大 多 数 测试 用 例 中 ， 尤 其 对 于 那些 随机 的 、 测 试 不 长 的 并 且 要 求 几 百 万 
周期 的 测试 用 例 ， 只 要 将 计数 器 的 值 设置 为 足够 大 就 可 以 在 测试 过 程 中 避免 被 检测 出 来 。 

在 图 11-4a 中 ， 攻 击 者 将 初始 ALU 生成 的 数据 转换 为 有 恶意 ALU 输出 的 数据 ， 从 而 破 
坏 输出 结果 。 在 图 11-4b 中 ， 当 程序 回 特 定 的 存储 需 地 址 写 数 据 时 ， 攻 击 者 可 以 改变 cache 
控制 右 的 信号 ， 导 致 在 下 层 存 储 器 中 进行 其 他 动作 ， 从 而 造成 信息 泄露 。 其 他 类 似 的 木马 进 
行 攻击 的 用 例 留 给 读者 想象 。 


初始 电路 


: 
控制 器 
恶意 电路 
po 


地 址 






a ) 定时 器 触发 的 腐蚀 后 门 b ) 定时 器 触发 的 发 射 后 门 
11-4 ”基于 定时 器 的 腐蚀 后 门 和 发 射 后 门 示例 : a) 定时 炸弹 腐蚀 后 门 ，b) 定时 炸弹 发 射 后 门 


11.2.3 ”安全 策略 机 制 


在 电路 设计 周期 中 检测 硬件 后 门 的 方法 之 一 是 利用 这 样 一 个 事实 : 硬件 设计 师 团 队 通 
常 是 分 层 组 织 ， 对 于 一 个 复杂 的 IC (如 处 理 器 )， 每 个 团队 都 不 可 以 设计 该 芯片 中 的 所 有 必 
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要 模块 。 每 个 团队 都 可 以 设计 自己 的 模块 ， 也 可 能 需要 将 他 们 的 模块 与 其 他 内 部 或 第 三 方 的 
“软件 ”模块 互 连 ， 如 一 些 硬 件 描述 语言 (HDL) 模块。 然而， 虽然 一 些 内 部 模块 可 能 必须 
通过 代码 审查 和 其 他 质量 控制 技术 以 确保 它们 的 可 信 性 ， 但 是 其 他 模块 仍然 可 能 包含 木马 ， 
导致 安全 问题 。 

下 面 的 章节 给 出 了 硬件 后 门 安全 策略 机 制 的 示例 。 

1. 数据 混淆 

防止 一 个 单一 输入 触发 攻击 的 安全 策略 是 数据 保密 性 。 然 而 ， 根 据 不 可 信 的 电路 模块 的 
类 型 ， 需 要 不 同 的 策略 机 制 。 如 果 不 可 信 的 模块 是 不 可 计算 的 ， 如 图 11-5 所 示 ， 只 有 一 个 
简单 的 数据 保密 技术 被 称 为 数据 混淆 [25] 是 用 来 防止 攻击 的 。 在 图 中 ， 从 可 信和 模块 中 输出 
的 《00110011 ) :在 输入 到 不 可 信 模 块 之 前 将 与 一 个 随机 数字 XOR， 从 而 混淆 该 数据 。 在 这 
种 情况 下 ， 当 攻击 者 在 不 可 信 不 可 计算 模块 中 生成 触发 输入 (00110011 ) ;来 激活 模块 中 的 
木马 时 ， 实 际 生 成 的 触发 电路 的 数据 变 为 ( 10010001 )，， 从 而 阻止 了 本 次 攻击 。 


一 个 随机 数字 ， 如 10100011 





初始 的 | 
00110011 10010001 
GE) | 
| : | 10010001 
| 一 > 00110011 
| | 
可 入 寄存 器 文件 
模块 | ae | 
| | 
TIO: 00110011 | 
| | 
| | 
| | 
| | 
不 可 信 不 可 计算 模块 
11-5 使 用 数据 混淆 技术 的 不 可 信 可 计算 模块 接口 
2. 同 态 加 密 


然而 ， 当 在 可 计算 模块 中 采用 单个 输入 来 触发 木马 时 使 用 数据 混淆 技术 有 一 点 困难 。 例 
如 ， 如 果 不 可 信和 可 计算 模块 执行 平方 函数 ， 一 种 被 称 为 同 态 计 算 ， 也 被 称 为 同 态 加 密 的 复杂 
数据 混淆 技术 将 被 使 用 [25-26]。 当 公式 (11-1) 成 立时 ， 两 个 函数 /和 g 被 称 为 同 态 关系 。 

flg(%), e(y)) = es, y)) (11-1) 
例如 ， 如 果 f 是 乘法 函数 ，g 是 平方 函数 ， 则 /到 g 的 同 态 关 系 如 下 所 示 : 


fx, y) = xy 
g(%) = x | ( 11-2 ) 
g(y)=¥ 
所 以 ， 
flax), gG) = fle’, y) = 
等 价 于 


e(f(x, yj) = glar) = (ay) = wy 
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4x=3, y=2 时 ， 
3 9 = (3 *2)’ 
9*4=6%6 = 36 
假设 一 个 设计 团队 在 处 理 器 的 设计 过 程 中 在 不 可 信 HDL 模块 中 加 入 浮 点 平方 图 数 。 在 
这 种 情况 下 ， 为 了 防止 单一 输入 触发 攻击 ,设计 团队 需要 在 硬件 设计 中 包含 之 前 所 述 的 同 态 
加 密 ， 或 者 在 处 理 器 系统 中 使 用 软件 方式 实现 同 态 加 密 ， 如 下 : 


float homomorphic encrypted square(float x) 


float y; 
y = random() ; - 
return (square(x * y) / (y * y)); 


} 


在 这 种 情况 下 , :因为 是 随机 生成 的 并 且 是 用 于 掩盖 x，x * y 的 值 也 是 随机 的 ， 使 得 其 
不 太 可 能 触发 输入 。 平方 函 数 计算 的 是 (x* y)*"， 而 不 是 可 能 触发 攻击 的 x*。 而 值 x 之 后 通 
过 计算 (x * y)“ 除 以 y*yy 安 全 得 到 。 

同 态 加 密 的 优点 在 于 其 对 计算 的 操作 是 基于 加 密 (隐藏) 的 数据 而 不 是 最 初 已 知 的 数据 。 
例如 ， 为 了 说 明 另 一 个 应 用 程序 以 及 同 态 计算 的 优点 ， 假 定 在 之 前 的 代码 中 的 平方 函数 代表 
存在 同 态 关系 的 函数 调用 ,假设 函数 只 在 一 个 远程 计算 机 上 可 用 (如: z), 并 且 用 户 并 不 希 
望 通过 网 络 传输 数据 x (表示 某 些 机 密 输 入 ,例如 ， 医 学 数据 )， 也 不 希望 远程 计算 机 访问 数据 
x。 在 这 种 情况 下 ， 通 过 在 远程 函数 中 对 输入 数据 的 隐藏 (加 密 )， 用 户 可 以 在 不 向 外 界 歇 露 真 
实 的 输入 数据 并 且 可 以 安全 地 使 用 远程 函数 。 关 于 同 态 计算 的 更 多 潜在 问题 请 参考 练习 部 分 。 

此 外 ， 对 于 某 些 函 数 如 平方 根 ， 其 在 x 和 ?都 为 非 负数 时 保持 同 态 关 系 Vxy = Vx Vy, 
但 当 x Aly 为 负数 时 不 保持 同 态 关 系 ， 例 如 V(-1)(-1) = /(-1) Vv(-1)。 

在 理论 上 ， 就 电路 规模 而 言 ， 采 用 硬件 同 态 加 密 / 解密 算法 的 可 信和 模块 实现 成 本 过 大 而 
不 可 接受 。 

3. 序列 器 

如 果 是 通过 一 个 特定 的 输入 序列 来 触发 攻击 ， 防 止 这 种 攻击 的 安全 策略 是 改变 其 输入 给 
不 可 信和 模块 的 输入 数据 的 顺序 。 对 输入 数据 重新 随机 排序 或 在 正常 输入 中 插入 虚拟 输入 可 用 
于 防止 输入 序列 攻击 。 许 多 现代 的 处 理 器 ， 如 采用 动态 调度 的 超标 量 处 理 器 (第 8 章 ), 已 
经 通过 对 指令 进行 重新 排序 等 方式 来 提高 性 能 ; 因此 ， 它 对 这 项 任务 可 能 带 来 一 定 的 随机 
性 。 然 而 ， 对 输入 数据 的 随机 重 排 可 能 对 存储 读 操作 不 起 作用 。 在 这 种 情况 下 ， 因 为 数据 依 
赖 而 使 得 对 输入 数据 随机 重 排 不 起 作用 时 ， 需 要 使 用 虚拟 输入 。 例 如 ， 为 了 改变 存储 器 访问 
的 顺序 ， 通 过 插入 包含 伪 随 机 生成 的 存储 器 地 址 的 load 指令 到 一 大 序列 load 和 store 指令 中 
从 而 阻止 攻击 被 触发 [25]。 

4. 电源 复位 

另 一 种 定时 炸弹 攻击 的 安全 策略 是 阻止 计数 器 到 达 触 发 值 。 完 成 这 种 工作 的 一 种 策略 机 
制 是 频繁 地 对 不 可 信和 模块 进行 电源 复位 。 对 不 可 信和 模块 进行 电源 复位 的 频率 是 由 测试 时 模块 
正常 工作 的 时 钟 数 决 定 的 。 由 于 存在 不 可 信和 模块 中 的 后 门类 型 不 可 知 ， 数 据 混 淆 、 输 入 序列 
重 排 、 电 源 复 位 等 都 必须 要 使 用 从 而 达到 阻止 攻击 的 目的 。 

5. 副本 

当 攻 击 阻止 技术 无 法 工作 时 ,一 种 额外 的 但 代价 昂贵 的 解决 方式 是 使 用 副本 。 图 11-6 
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说 明了 一 个 使 用 模块 副本 技术 的 示例 ， 其 中 两 个 模块 六 分 别 由 两 个 团队 A A B 设计 。 将 对 
两 个 副本 的 输出 进行 比较 。 若 输出 结果 相同 ， 认 为 模块 未 受 
到 攻击 。 然 而 ， 这 种 技术 要 求 模块 必须 按照 完全 一 致 的 特性 输入 数据 
进行 设计 ， 在 设计 中 任何 小 的 变化 都 会 被 认为 受到 后 门 攻 
击 ， 而 此 时 模块 可 能 未 受到 后 门 攻击 。 J 

由 团队 B 设 计 
O TSRM UXORI) 











6. 自动 HDL 代码 分 析 gree ae 

另 一 种 潜在 检测 后 门 的 方式 是 自动 分 析 HDL (例如 
Verilog) 代码 并 标记 模块 可 能 的 后 门 。 被 标记 的 模块 会 在 运 
行 过 程 中 检测 是 否 有 亚 意 软件 [27]。 


表 11-5 对 硬件 后 门 攻击 种 类 和 一 系列 阻止 攻击 的 安全 11-6 采用 模块 复制 来 检测 硬 


策略 和 机 制 进行 了 总 结 。 件 后 门 攻击 [12] 
表 11-5 ”对 硬件 后 门 的 安全 策略 和 机 制 的 总 结 
触发 类 型 | ”模块 类 型 安全 策略 安全 机 制 
| = 使 用 简单 的 加 密 技 术 。 例 如 ， 使 用 随机 生成 的 数字 对 输 

单一 输入 oe 入 给 不 可 信 模 块 的 数据 进行 按 位 XOR 来 加 密 

TAE WASAN 

不 可 i 
输入 序列 改变 输入 顺序 对 输入 数据 进行 重 排 或 插入 虚拟 输入 
定时 器 阻止 定时 器 到 达 目 标 值 | ”对 不 可 信 模 块 进行 定期 电源 复位 


11.3 ”软件 /物理 攻击 


欺骗 、 拼 接 、 重 放 和 中 间 人 是 软件 和 物理 攻击 的 4 种 类 型 。 可 以 用 来 物理 地 监视 计算 设 
备 、 改 变 计算 设备 的 功能 或 者 对 计算 设备 进行 逆向 工程 。 其 中 ， 物 理 攻 击 通 常 被 称 为 硬件 攻 
击 ， 但 这 不 应 与 之 前 讨论 的 硬件 后 门 攻击 相 混 消 。 

然而 ， 如 果 设 备 采 用 了 适当 的 具有 机 密 性 和 完整 性 特点 的 安全 策略 机 制 ， 这 些 类 型 的 攻 
击 都 是 可 检测 的 。 


11.3.1 欺骗 攻击 


正如 前 文 所 述 ， 欺 骗 攻 击 是 通过 向 系统 中 非法 插入 信息 (程序 代码 或 数据 ) 产生 攻击 ， 
如 图 11-7 所 示 ， 病 毒 可 以 向 硬盘 或 存储 器 中 插入 非法 数据 。 拥 有 与 计算 设备 物理 连接 的 设 
备 也 可 以 使 用 专门 的 工具 来 产生 物理 欺骗 攻击 。 例 如 ， 攻 击 者 可 以 拦截 一 次 存储 器 事务 并 在 
该 存储 器 中 本 地 修改 其 数据 来 欺骗 存储 右 。 坎 骗 攻 击破 坏 了 系统 数据 完整 性 。 


11.3.2 ”拼接 攻击 


拼接 攻击 是 通过 在 系统 中 非法 地 让 原来 信息 (指令 或 数据 ) 与 男 一 信息 进行 替换 ， 如 
图 11-8 所 示 ， 亚 意 软 件 复 制 一 个 存储 器 段 的 指令 到 另 一 存储 器 段 中 。 这 一 示例 不 仅 是 一 个 
拼接 攻击 的 示例 ， 也 是 一 个 物理 攻击 的 示例 ， 其 拦截 一 次 存储 器 事务 并 向 存储 天 提 供 其 原来 
访问 的 地 址 但 数据 不 同 的 存储 需 数 据 。 

即使 数据 保持 机 密 性 ， 拼 接 攻击 仍 可 以 在 不 引起 注意 的 情况 下 发 生 ， 攻 击 者 只 需要 简单 
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地 用 已 备份 存储 的 数据 蔡 代 另 一 部 分 机 密 数据 而 并 不 需要 知道 其 数据 时 什么 。 拼 接 攻击 也 破 
坏 了 数据 完整 性 ,但 是 采用 具有 完整 性 安全 策略 机 制 的 系统 必须 集成 数据 位 置信 息 ( 例 如 存 
储 嚣 地址、 寄存 器 号 等 ) 来 检测 这 种 攻击 。 拼 接 攻击 的 男 一 个 示例 是 通过 替换 在 页 表 中 存储 
的 指令 页 号 4、B 来 进行 攻击 [29]。 在 这 种 情况 下 ， 攻击 者 可 以 强迫 操作 系统 或 进程 从 物理 
页 号 B 而 不 是 物理 页 号 4 处 开始 执行 指令 。 


… 在 欺骗 攻击 之 前 … 在 欺骗 攻击 之 后 


欺骗 攻击 


有 
ip Joab 
arr 
a incar d 
fe seed 


图 11-7 配 图 说 明了 一 次 欺骗 攻击 [28]: 在 目标 位 置 插入 了 一 个 不 同 的 值 


… 在 拼接 攻击 之 前 … 在 拼接 攻击 之 后 





图 11-8 ” 配 图 说 明了 一 次 拼接 攻击 [28]: 在 位 置 5 处 的 数据 被 位 置 1 HRB R 


11.3.3” 重 放 攻 击 


重 放 攻 击 是 在 系统 中 使 用 当前 数据 的 较 早 版 本 非法 替代 当前 数据 ， 如 图 11-9 所 示 。 重 
放 攻 击 与 拼接 攻击 相似 ， 唯 一 不 同 之 处 在 于 其 使 用 该 数据 的 较 早 版 本 而 不 是 系统 中 的 其 他 数 
据 来 替代 当前 数据 。 例 如 ， 攻 击 者 将 一 个 特殊 的 数据 项 放 在 存储 器 的 某 个 位 置 ， 当 系统 再 次 
访问 该 位 置 时 将 使 用 这 一 特殊 数据 项 。 相 似 的 ， 在 硬件 层 ， 攻 击 者 可 以 拦截 对 地 址 对 的 存储 
事务 ， 以 便 保 存 之 后 需 使 用 的 存储 内 容 复 本 [30]。 继 而 攻击 者 需要 等 待 一 次 写 和 人 存储 器 对 地 
址 的 事务 以 完成 本 次 攻击 。 当 检测 下 一 次 对 地 址 站 的 存储 器 读 事务 时 ， 攻 击 者 提供 之 前 保存 
的 、 相 对 于 现在 是 旧 的 内 容 给 处 理 器 。 

重 放 攻 击 也 可 能 并 不 是 以 这 样 直接 的 方式 来 发 动 攻击 的 ， 攻 击 者 可 以 在 系统 中 同时 保存 
数据 的 旧版 本 和 新 版 本 。 例 如 ， 重 放 攻 击 可 以 使 用 一 个 虚拟 地 址 映射 到 两 个 不 同 的 物理 地 址 ， 
使 得 新 数据 存储 在 一 个 物理 地 址 ， 而 访问 时 从 存储 旧 数 据 的 第 二 个 物理 地 址 中 获取 数据 。 
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… 在 重 放 攻 击 之 前 … 完成 重 放 攻 击 之 后 
的 t1 时 刻 的 t2 时 刻 
数据 (@ 0; t1) 数据 (@ 0; t2) 
数据 (@ 1; t1) 数据 (@ 1; t2) 
数据 (@ 4;t1) 重 放 攻 击 数据 (@ 4; t2) 
数据 (@ 5:t) N 数据 (@ 5:11) 








R11 F 


11-9 ” 配 图 说 明了 重 放 攻击 [28]: t2 时 刻 存储 在 位 置 5 的 数据 被 t1 时 刻 存储 在 位 置 5 的 数据 替换 了 


重 放 攻 击 也 破坏 了 数据 的 完整 性 ， 但 是 以 一 种 不 同 的 方式 一 一 所 有 关于 替代 数据 的 事务 
都 是 合法 的 ， 唯 一 不 同 在 于 数据 并 不 是 最 新 的 。 例 如 ， 在 公共 事业 公司 使 用 智能 电表 获取 用 
户 用 电量 的 过 程 中 ， 重 放 攻 击 可 以 使 得 公司 每 次 都 读 取 之 前 的 数据 ， 从 而 对 公司 造成 一 定 的 
损失 。 重 放 攻 击 非常 难 检 测 ， 保 持 信 息 的 机 密 性 或 使 用 简单 的 完整 性 机 制 都 对 检测 重 放 攻 击 
不 起 作用 。 对 于 重 放 攻 击 的 检测 ， 需 要 使 用 一 种 集成 了 定时 信息 (如 总 线 事务 号 、 通 信 会 话 
标识 符 等 ) 的 更 复杂 的 安全 机 制 。 


11.3.4 ”中间 人 攻击 


中 间 人 攻击 可 以 发 生 在 以 下 场景 : 两 个 主体 (人 人、 软件、 固件 ) 并 不 使 用 足够 机 密 和 完 
整 的 安全 机 制 进行 通信 。 一 个 恶意 的 主体 可 以 拦截 两 个 合法 主体 之 间 的 信息 交互 ， 并 复制 主 
体 间 通信 的 消息 (如 : 窃听 ) 或 使 用 不 同 的 信息 将 最 初 传 送 的 信息 替换 ， 恶 意 主 体 担 当 一 个 
中 间 人 的 角色 ， 如 图 11-10 所 示 。 实 体 A 和 实体 B 并 未 察觉 到 实体 C 的 存在 ，A AB 都 以 


为 其 与 对 方 直接 通信 。 
实体 A 恶意 实体 C 实体 B 
信息 信息 
信息 被 实体 C 
复制 或 蔡 换 


图 11-10 配 图 说 明了 一 个 中 间 人 攻击 。 实 体 A 和 实体 B 均 未 察觉 到 实体 C 的 存在 


11.4 可 信 计 算 基 


一 个 TCB 包括 安全 设计 、 开 发 、 安 装 和 运行 的 硬件 和 固件 以 及 可 能 的 负责 维护 系统 安 
全 的 软件 模块 。 对 于 硬件 ， 系 统 必须 保护 硬件 以 免 其 受到 后 门 攻击 ， 从 而 使 得 硬件 可 以 正确 
地 运转 。 这 样 的 硬件 被 称 为 可 信 硬 件 模块 (THM)。 相 似 的 ， 固 件 也 必须 被 安全 地 设计 、 开 
发 和 安装 ， 这 样 的 固件 被 称 为 可 信 固 件 模 块 (TFM)， 其 是 一 个 藤 入 在 THM 中 的 可 防 自 改 的 
IC。 此 外 ， 在 一 些 使 用 安全 系统 应 用 的 区 域 ， 一 个 或 多 个 与 安全 相关 的 软件 模块 也 必须 安全 
地 执行 。 在 这 种 情况 下 ， 软 件 模块 也 必须 安全 地 设计 、 开 发 和 安装 ， 这 样 的 软件 模块 被 称 为 
可 信 软 件 模 块 (TSM )。 


tH ALH: ZA 377 


一 个 THM-TFM 模块 可 被 组 织 成 一 个 安全 协 处 理 器 (SCP), Ban, —ThEARARA 
统 的 加 密 处 理 器 可 以 为 操作 系统 或 应 用 软件 提供 加 密 服 务 。SCP 负责 生成 安全 秘 钥 ( 见 11.5 
节 )， 安 全 秘 钥 是 用 来 保护 存储 在 本 地 或 远程 服务 器 上 的 文件 和 数据 的 机 密 性 和 完整 性 ， 秘 
钥 也 需要 安全 通信 。 般 入 在 THM 中 的 TFM 适用 于 保护 模块 免 受 欺骗、 拼接 和 重 放 等 攻击 ， 
但 是 其 无 法 防止 物理 攻击 。 在 11.10 节 本 书 将 使 用 可 信 平 台 模 块 (TPM) 作为 SCP 的 示例 进 
行 讨 论 。 

另 一 方面 ， 为 了 得 到 最 大 的 适用 性 ，THM-TFM-TSM 也 可 组 织 成 一 个 通用 目的 安全 处 
理 器 ( SP)。 每 个 SP 可 支持 多 个 安全 的 执行 环境 ， 每 个 执行 环境 采用 安全 执行 模式 (SXM) 
来 运行 任意 TSM。 根 据 应 用 领域 的 不 同 ， 任 意 的 TSM 都 需要 具有 机 密 性 或 完整 性 或 两 者 都 
有 的 指令 ， 也 需要 具有 机 密 性 或 完整 性 或 两 者 都 有 的 数据 。 基 于 SP 的 系统 可 以 支持 所 有 的 
与 安全 相关 的 应 用 领域 ， 包 括 那 些 由 SCP 支持 的 应 用 领域 。 本 书 给 出 了 一 个 需要 SP 的 安全 
应 用 领域 示例 : 当 一 个 商业 操作 系统 被 频繁 破坏 或 一 个 便携 式 设备 需要 被 保护 以 免 遭 受 物理 
攻击 时 [31-33]， 强 制 访问 控制 (11.1.4) 的 实现 。 此 外 ， 手 持 设备 ， 如 智能 电话 ， 也 需要 一 
个 节能 的 SP。 例 如， 考虑 数字 版 权 管理 策略 [34]， 其 只 允许 目标 手持 设备 对 加 密 的 媒体 文 
件 进 行 译 码 。 | 

因为 TSM 可 以 是 软件 攻击 的 目标 ， 其 SXM 必须 实现 必要 的 安全 策略 机 制 来 保护 TSM 
免 受 欺骗 、 拼 接 以 及 回放 攻击 ， 寿 系统 是 一 个 便携 式 设 备 ， 也 需 实 现 安 全 策略 机 制 来 保 
护 TSM 免 受 物理 攻击 。SXM 将 在 11.11 节 进 行 讨 论 ， 关 于 实现 最 大 保护 的 SP 的 架构 将 在 
11.12 节 陈 述 。 

其 他 需要 TCB 的 安全 应 用 领域 还 包括 软件 盗版 预防 、 云 计算 和 认证 执行 等 。 例 如 ， 搜 
索 外 星 智慧 (SETI) 的 项 目 [35] 和 在 www.distributed.net[36] 中 的 利用 成 千 上 万 志愿 用 户 提 
供 的 家 庭 计 算 能 力 并 在 从 公共 事业 到 学 术 界 等 众多 领域 做 出 重要 研究 的 通用 目的 的 分 布 式 计 
算 项 目 。 用 户 可 以 下 载 一 个 免费 的 程序 来 分 析 研 究 来 自 ， 如 SETI 项 目 中 的 射电 望远镜 中 的 
数据 。 然 而 ， 如 果 执 行 未 被 认证 ， 是 无 法 验证 结果 的 正确 性 的 。 


11.5 ”密码 使 用 方法 


机 密 性 是 通过 应 用 加 密 算 法 ， 也 被 称 为 加 密 器 ， 来 获取 并 隐藏 明码 文件 、 电 子 邮 件 、 认 
证 数据 、 存 储 数 据 等 来 实现 的 。 加 密 器 的 输出 是 密 文 。 相 似 的 ， 使 用 一 个 译 码 算法 ， 也 被 称 
为 解密 器 ， 来 对 密 文 进行 译 码 并 生成 原始 的 明文 ， 如 图 11-11 所 示 。 


对 称 密 钥 密码 器 : eA 密 钥 。” 同一 把 密 钥 
非 对 称 密 钥 密码 器 :” 密 钥 1 密 钥 2 ”两 把 不 同 的 密 钥 
明文 加 密 器 密 文 解密 器 明文 
密码 器 密码 器 
图 11-11 配 图 说 明了 加 密 和 解密 的 使 用 过 程 


如 果 一 个 加 密 天 生成 的 密 文中 不 包含 任何 可 以 获取 到 初始 明文 输入 的 信息 ， 这 个 加 密 器 
可 以 被 称 为 是 安全 的 。 对 称 密 钥 密码 器 对 加 密 硕 和 解密 怖 均 使 用 同一 把 钥匙 。 另 一 方面 ， 非 
对 称 密 钥 密码 器 为 加 密 仑 和 解密 上 船 使 用 两 把 不 同 的 钥匙 。 在 实际 的 使 用 中 ， 只 需要 保密 加 密 
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钥匙 ， 而 不 需要 保密 加 密 顺 或 解密 器 〈 加 密 解密 算法 ) [37]。 

如 果 加 密 融 或 者 解密 器 每 次 加 密 或 解密 1 位 数据 ， 这 样 的 密码 器 称 为 流 密码 器 。 此 外 ， 
如 果 加 密 器 或 解密 顺 每 次 输入 一 块 数据 〈 多 个 位 )， 这 样 的 密码 器 被 称 为 块 密码 证 。 当 输入 
信息 大 于 一 块 时 ， 有 多 种 方式 (被 称 为 操作 模式 ) 供 加 密 器 或 解密 器 选择 来 加 密 或 解密 剩余 
输入 信息 。 下 面 将 讨论 对 称 密 钥 密 码 器 和 非 对 称 密 钥 密 码 器 。 


11.5.1 对 称 密 钥 密码 器 


图 11-12 中 说 明了 一 个 8 位 的 线性 反馈 移 位 寄存 器 ( LFSR)， 并 使 用 其 作为 一 个 简单 的 
对 称 密 钥 密 码 器 的 示例 ， 这 一 密码 器 也 被 称 为 流 密码 器 。 这 一 密码 器 采用 包含 4 个 调 位 4、 
5、6、8 的 平行 加 载 右 移 寄 存 器 的 设计 。 调 位 从 1 开始 标号 ， 表 示 寄 存 器 从 右 向 左 的 寄存 
器 位 。 通 过 对 4 个 调 位 对 应 的 位 数据 进行 XOR 操作 从 而 生成 下 一 个 寄存 器 右 移 时 左 侧 输入 
(LI) 的 数据 。 


8 位 的 并 行 加 载 / 右 移 寄存 器 
调 位 ? € 7 6 5 4 3 2 i 


-一 使 用 初始 的 8 位 密 钥 
”1 | 进行 加 载 ( 8'hEB ) 







a“ 由 LFSR 右 移 输出 的 密码 流 


1. 密 文 ( 16”h44CF， 


每 次 1 位 ) 
1. 加 密 ， 明 文 流 ý 
( 如 16，hAFE0， 每 次 1 位 ) 2. 明 文 (16 hAFE ) 
2. 解 密 ， 密 文 流 
( 416’ h44CF ) 


图 11-12” 配 图 说 明 一 个 采用 调 位 4、5、6、8 的 8 位 的 线性 反馈 移 位 寄存 器 密码 器 


寄存 器 使 用 一 个 密 钥 进行 初始 化 ， 随 着 寄存 器 右 移 ， 寄 存 器 中 的 数据 将 每 次 输出 1 位 从 
而 生成 一 个 密码 流 。 例 如 ， 经 过 16 次 右 移 ，LFSR 将 生成 16 位 密码 流 ， 类 似 的 ， 也 会 生成 
32 位 密码 流 等 。 由 选择 的 调 位 所 决定 的 密码 流 的 周期 是 密码 流 重 复 之 前 的 移 位 数 。 在 对 明 
文 进 行 加 密 时 ， 密 码 流 每 次 与 等 大 小 的 明文 流 按 位 进行 XOR 计算 从 而 生成 一 个 等 大 小 的 密 
文 流 ， 每 次 加 密 1 位 。 相 似 的 ， 在 对 密 文 进行 解密 时 ， 密 码 流 每 次 与 等 大 小 的 密 文 流 按 位 进 
ÍT XOR 计算 从 而 生成 相应 的 初始 明文 流 ， 每 次 解密 1 位 。 

初始 化 移 位 寄存 器 使 用 的 密 钥 必须 小 心 选择 ， 使 得 寄存 器 的 内 容 在 右 移 过 程 中 不 会 变 成 
0。 在 图 中 ，LFSR 密码 器 使 用 8 位 8*"hEB ( Verilog 中 十 六 进 制 ) 来 进行 初始 化 ， 需 要 16 个 
时 钟 周期 来 将 16 位 明文 数据 16"'hAFE0 加 密 成 相应 的 16 位 密 文 16'h44CF。 相 似 的 ， 在 16 
位 密 文 16*h44CF 解密 之 前 ， 需 要 使 用 同样 的 密 钥 8'hEB 来 初始 化 寄存 器 ， 在 16 个 时 钟 周 
期 中 ， 解 密生 成 初始 的 16 位 明文 16"'hAFE0。 

1. A5/1 

AS/1 是 一 种 实际 使 用 的 流 密 码 器 ， 其 使 用 19-LFSR. 22-LFSR 和 23-LFSR 来 进行 加 密 
解密 过 程 ， 如 图 11-13 所 示 。 三 个 LFSR 分 别 被 标记 为 X、Y 和 Z。 标 记 由 表示 按 位 XOR, 
在 每 个 时 钟 周 期 中 ，LFSR 并 不 进行 移 位 操作 ， 相 反 ， 使 用 寄存 器 数据 xs yio 和 zio 作为 主 
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电路 的 输入 ， 当 输入 中 有 两 个 或 两 个 以 上 的 1 时 ,输出 m = 1， 当 输入 中 有 两 个 或 两 个 以 上 
的 0 时 ， 输出 m = 0。 例如 ， 如 果 x= 0、 )io= 0 和 zio= ’ 输出 m = 0, 当 xs= 1, Yiu= 1 和 
zi0=0 时 ,输出 m= 1。 
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Xs. Yio 和 zio 将 分 别 与 m 比较 (XNOR) 来 确定 在 下 一 个 时 钟 周期 是 否 使 用 x、y、z 对 
应 的 寄存 器 。 例 如 ， 如 果 吉 田 m = 1， 寄 存 器 义 将 被 使 能 ， 否 则 ， 寄 存 器 X 在 下 一 个 时 钟 周 
期 将 不 使 能 。 通 过 以 上 方式 增加 了 密码 流 额 外 的 随机 性 ， 使 得 密码 流 更 难 被 攻击 者 破解 。 位 
Xis Yo 和 z2 是 用 于 生成 密码 流 ， 而 最 初 的 密 钥 有 64 (19 + 22 + 23 ) 位 长 。 

2. 块 密码 器 

数据 加 密 标准 (DES) 是 最 老 的 块 密码 器 ， 其 使 用 56 位 的 密 钥 ， 操 作 的 块 大 小 为 64 
位 。 而 如 今 最 常 使 用 的 块 密码 器 是 高 级 加 密 标准 ( AES)， 其 是 由 美国 国家 标准 技术 研究 所 
(NIST) [38] 推荐 的 。 

3. 高 级 加 密 标准 (AES) 

标准 的 128 位 AES 密码 器 要 求 使 用 一 个 128、192 或 256 位 的 密 钥 来 加 密 或 解密 一 个 大 
小 为 128 位 的 数据 块 。 如 果 明 文 输入 的 数据 位 数量 无 法 被 128 整除 ， 需 要 在 明文 的 末尾 添加 
额外 的 位 使 得 其 可 被 128 整除 。AES 将 每 个 输入 块 按 一 定 的 行列 顺序 组 织 好 ， 每 次 加 密 需 要 
10、12 或 14 次 循环 操作 ， 具 体 为 多 少 次 由 密 钥 长 度 决 定 。 在 每 次 循环 中 ， 通 过 查找 表 、 行 
移 位 、 列 混合 以 及 按 位 XOR 等 操作 生成 下 一 循环 输入 给 寄存 器 替换 其 中 特定 位 置 的 数据 。 
最 后 一 次 循环 输出 的 是 128 位 的 密 文 。 根 据 操作 模式 〈 接 下 来 讨论 ) 的 不 同 ， 解 密 操 作 可 能 
以 相对 于 加 密 操 作 相 反 的 顺序 或 相同 的 顺序 执行 解密 操作 。 


11.5.2 ”操作 模式 


图 11-14 说 明了 AES 密码 器 在 密码 块 链接 (CBC) 模式 下 的 应 用 。 每 个 块 的 加 密 步 又 从 
对 当前 的 128 位 的 明文 块 和 与 之 前 生成 的 128 位 密 文 块 进行 按 位 XOR 操作 开始 ， 正 如 模式 
名 中 的 “链接 ”。 然 而 ， 对 于 第 一 个 明文 块 ， 其 之 前 并 没有 生成 好 的 密 文 块 ， 需 要 将 其 与 随 
机 生成 的 128 位 数据 进行 XOR 操作 ， 这 个 128 位 数据 被 称 为 初始 化 向 量 (IV)， 其 并 不 是 必 
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块 1 
(Co) (C1) (C2) 


密 文 
a) me 


11-14 MAHA TE CBC 模式 下 工作 的 AES 密码 器 : a) MB; b) 解密 





在 CBC 模式 下 ， 对 明文 块 的 加 密 是 递归 加 密 的 ， 如 图 11-14a 和 表 11-6 Pra, 但 是 对 
密 文 块 的 解密 操作 可 以 以 任意 顺序 甚至 是 并 行 的 方式 进行 。 在 表 中 ， 字 和 母 E 表示 是 加 密 ， 字 
EE D 表示 解密 ， 字 母 玉 表示 密 钥 , Po. Pi 等 表示 明文 块 0、1 和 等， 字母 Co. Ci 等 表示 密 文 块 0、 
i=. 


R 11-6 CBC 模式 下 的 加 密 /解密 
密码 块 链接 模式 (CBC) 







加 密 解密 


Co = E (IV @ Py, K) P,=IV®D (C, K) 
Cı = E (Co ® Pi, K) Pi = Co WD (C, K 
P,= Ci ®D (C, K) 






C2 =E (Ci ® P, K) 
C: 128 位 密 文 块 ; P: 128 位 明文 块 ; E: 加 密 器 CAN AES); IV: 初始 化 向 量 ; K: BA; D: 解密 器 


另 一 种 常用 的 操作 模式 是 计数 器 模式 (CTR )， 如 表 11-7 所 示 。 其 使 用 并 行 处 理 的 IV 序 
列 来 进行 加 密 / 解密。 函数 EE CIV, K) 表示 使 用 密 钥 KK 对 IV 进行 加 密 ， 再 将 加 密生 成 的 结果 
与 第 一 个 明文 块 Po 进行 XOR 操作 从 而 生成 第 一 个 密 文 块 Coo ZR IV 将 增加 并 用 于 对 下 一 
个 密 文 块 (Pi ) 进行 加 密生 成 密 文 块 C1， 这 一 加 密 过 程 与 Co 独立 不 相关 。 以 此 类 推 , 完成 
对 所 有 明文 块 的 加 密 操 作 。 


表 11-7 CTR 模式 下 的 加 密 /解密 
- 计数 器 模式 (CTR) 
加 密 
Cy = Po ® E (IV, K) 
C,=P; BEUV+1, K) 
C,= P, ® E (IV +2, K) 







解密 
P, = Cy ® E (IV, K) 

P,=C, ®E(IV+1,K) 
P,=C, ®E (IV +2, K) 









CTR 模式 的 优点 在 于 其 对 加 密 和 解密 使 用 同一 个 密码 器 。 注 意 ， 在 表 中 ， 并 未 使 用 到 
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解密 器 (D)。 此 外 ， 对 明文 块 / 密 文 块 的 加 密 /解密 操作 可 并 行 执行 。 例 如 ， 一 个 共 16 H 
的 明文 可 以 被 分 割 为 各 8 块 的 两 组 明文 ， 例 如 ， 块 Po 到 块 忆 为 一 组 ， 块 Ps 到 块 Pi; 为 另 一 
组 。 每 一 组 中 的 块 亦 可 以 并 行 处 理 。 例 如 ， 使 用 两 个 线程 ， 一 个 线程 使 用 IV 到 JIV+ 7 操作 
Hk Po 到 P;， 男 一 线程 使 用 IV+ 8 到 IV + 15 操作 块 Ps 到 Piso 

包括 Intel A AMD 在 内 的 多 种 处 理 器 实现 了 AES 指令 集 ， 使 得 软件 中 可 实现 CBC 模 
式 、CTR 模式 和 其 他 一 些 模式 [39]. 


11.5.3” 非 对 称 密 钥 密码 器 


非 对 称 密 钥 密码 器 ， 正 如 前 文 所 述 ， 需 要 两 把 不 同 的 密 钥 ， 一 把 用 于 加 密 另 一 把 用 于 
解密 。 非 对 称 密 钥 密码 器 的 最 初 应 用 是 用 于 通信 ， 如 例 11-1 所 示 。 在 这 个 例子 中 ，Alice 和 
Bob 表示 两 个 主体 其 可 以 为 人 、 程 序 或 硬件 等 。 

假设 Alice 希望 发 送 密 文 消息 给 Bob。Alice 和 Bob 都 含有 一 个 不 保密 的 公共 
密 钥 和 一 个 私有 的 密 钥 。 假 定 没 有 其 他 人 发 送 密 文 给 Bob， 没 有 人 假扮 Alice， 没 有 人 以 任 
何方 式 改 变 Alice 的 消息 。 

ft: 因为 Alice 只 关心 保持 信息 的 机 密 性 ，Alice 和 Bob 可 以 使 用 以 下 步 又 : 

1 ) Alice 使 用 Bob 的 公共 密 钥 来 加 密 Alice 的 私有 密 钥 并 传送 给 Bob。 

2 ) 一 旦 收 到 消息 ，Bob 使 用 其 自己 私有 的 密 钥 对 收 到 的 信息 进行 解密 。 

因为 没有 其 他 人 知道 Bob WALA HH, RA Bob 可 以 对 Alice 加 密 的 信息 进行 解密 。 m 

1. RSA 

RSA 是 使 用 三 位 开发 这 种 密码 器 的 人 的 名 字 (Ron Rivest, Adi Shamir 和 Leonard 
Adleman) 进行 命名 的 。RSA 是 一 种 需要 一 把 密 钥 进 行 加 密 操作 并 需要 另 一 把 不 同 的 密 钥 进 
行 解密 操作 的 非 对 称 密 钥 密码 器 。 每 一 个 明文 或 密 文 可 看 作 一 个 整数 。 例 如 ， 当 使 用 ASCII 
编码 的 字符 串 信 息 “HELLO”， 其 包含 5S 个 8 位 的 ASCII 码 ， 其 中 ， 使 用 2”h48 或 72 表示 
字符 H， 使 用 2’h45 或 69 表示 字符 E， 使 用 2?h4C 或 76 表示 字符 L， 使 用 字符 2"h4C 或 76 
表示 第 二 个 字符 L， 使 用 2’h4F 或 79 表示 字符 O。 

这 个 字符 串 可 以 看 作 5 个 分 离 的 ASCII 码 ， 其 对 应 数字 为 72、69、76、76 和 79， 也 
可 看 作 一 个 单独 的 40 位 的 大 数字 40"h4845$4C4C4F ， 也 可 以 使 用 其 他 不 同 的 分 割 方式 。 例 
如 ， 将 字符 串 分 割 为 3 个 16 位 的 数字 : 16”h4845 = 18501, 16’h4C4C = 19532 和 16’h4F00 = 
20224。 最 后 一 个 数字 是 通过 在 尾部 添加 8 位 的 0 使 得 其 成 为 16 位 数字 。 

为 了 人 简化， 假设 字符 串 “HELLO ”被 分 割 为 $ 个 明文 数字 ， 为 Po= 72. Pi= 69、 忆 = 
76、P;= 76 以 及 Py4= 79。 字 符 串 可 以 使 用 ,例如 之 前 讨论 的 CBC 或 CTR 模式 ， 进 行 加 密 ， 
每 次 加 密 一 个 数字 。 然 而 ， 正 如 之 后 将 要 讨论 的 ， 非 对 称 密 钥 密码 器 并 不 适用 于 大 输入 数据 
的 加 密 。 

RSA 需要 两 个 互 素数 作为 密 钥 : 一 个 作为 公共 密 钥 (e)， 用 于 加 密 ， 另 一 个 作为 私有 密 
钥 (d) 用 于 解密 。 公 式 (11-3) 确定 了 nn 位 明文 PP 和 nn 位 密 文 C 之 间 的 关系 。 

G= P* mod ñ 
P= C’modn 

假设 公共 密 钥 e =5, H#An=91, 公式 (11-4) 说 明了 密 文 P= 72 到 对 应 密 文 C = 
11 的 加 密 过 程 ，11 是 72 被 91 整除 的 余数 。( 注 意 ， 对 于 8 位 的 明文 ASCII 码 ,n 必须 
是 256 )。 


(11-3) 
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C= P mod 91 

C = 72° mod 91 

C = 1 934917 632 mod 91 
Ce 11 

AX (11-5) 说 明了 使 用 私有 密 钥 d= 29 和 n= 91 对 C= 11 进行 解密 以 获取 初始 的 明 
XAF P = 72 的 过 程 。 注 意 ， 因 为 11” 的 值 太 大 ， 对 于 计算 器 甚至 某 些 计算 机 都 无 法 计算 。 
其 必须 被 分 为 更 小 的 形式 直到 其 小 到 足以 被 计算 。 

P= C” mod 91 

P = 11” mod 91; write 11” as 11” * 11° 

P= (11” mod 91) (11° mod 91) mod 91; write 11” as 11°** 
P = (11°** mod 91) (11° mod 91) mod 91 

P = ((11° mod 91)* mod 91) (11° mod 91) mod 91 

P= (64 mod 91) (11° mod 91) mod 91 

P= (1)(72)mod 91 

P= 72 

一 个 非常 大 的 数 XY 可 以 被 写成 X**"、X*” BE XN 等 形式 。 公 式 (11-6) 说 明了 和 

mod n 被 划分 成 更 小 的 形式 。 
X**>* mod n= (Xmod n)(X° mod n)mod n 
= ( (X° mod n)” mod n)(X° mod n)mod n 
= ( W” mod n)(Y)mod n; suppose W = X* mod n, and Y = X° mod n 
= (Z* Y)mod n; suppose Z = W* mod n 

例如 ， 如 果 公 式 (11-6) PR W 仍然 是 一 个 非常 大 的 数字 ， 其 值 可 以 再 次 划分 为 更 小 
的 形式 ， 直 到 其 值 足 够 小 并 对 于 每 个 mod 函数 都 可 计算 得 出 结果 。 

下 面 是 确定 一 个 加 密 密 钥 e 和 解密 密 钥 d[40, 41] 的 算法 。 公 共 密 钥 被 安全 地 存储 在 一 
个 可 信 中 心 ， 如 存储 在 公 钥 密码 (PKI) 中 。 

1) 选择 两 个 素数 p 和 g，, PM p=7, q=13. 

2) 确定 n=p*q, 即 n=7*13 = 91。 

3) 确定 m=(p-1)(q-1), 即 m=(7-1)(13-1)=6*12=72。 | 

4) 找到 这 样 的 一 个 素数 e， MERWE eS mHRHHe<m; 即 gcd (e, m)= 1 并且 e< 

m, EF gcd 表示 最 大 公共 因子 ， 例 如 选择 e = 5。 

5) 找到 一 个 整数 d= [1 + (k* m)J/e， 其 中 是 一 个 整数 并 且 d<m, 例如 ， 取 k= 2， 则 
d=[1+2*72]/5=29。 如 果 没有 这 样 的 整数 上 ， 返 回 步骤 4 ) 重新 选择 不 同 的 e 值 再 重复 步骤 5 )， 
如 果 还 是 没有 这 样 的 e 和 dg， 返回 步骤 1 ) 选择 另外 两 个 不 同 的 素数 ， 重 复 1) ~ 5 ) 的 操作 。 

6) 使 用 值 e 和 nn 作为 公共 (已 知 的 ) 信息 ，a 作为 私有 (不 可 知 的 ) 信息 。 即 使 用 e 作 
为 公共 密 钥 d 作为 私有 密 钥 。 

对 于 以 上 步 又， 也 可 以 按 相 反 的 顺序 ， 先 确定 4 的 值 ， 再 根据 步骤 4 ) 和 步骤 5 ) 的 要 
RME e 的 值 。 

当 P、C、e 和 4 是 非常 大 的 数字 时 ，RSA 密码 器 需要 进行 更 多 的 计算 。 例 如 ， 一 个 

”含有 128 个 字母 的 信息 可 看 作 一 个 1024 位 的 整数 (128 * 8 )， 其 是 由 128 个 ASCI 字符 的 


(11-4) 


(11-5 ) 


(11-6) 
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256” 个 组 合 中 的 一 个 。 这 表明 已 和 C 可 能 是 非常 大 的 数字 < 2”“。 对 1024 位 的 P 的 加 密 
会 生成 一 个 1024 位 的 密 文 C， 其 也 包含 128 个 ASCII 字符 。 因 为 典型 的 处 理 器 并 没有 ， 例 
如 ， 一 个 1024 位 的 算术 单元 一 共 1024 位 RSA 密码 器 进行 计算 ， 大 的 算术 功能 必须 通过 软 
件 或 硬件 上 的 协 处 理 器 来 进行 计算 [42]。 

密 文 C 和 解密 密 钥 (d) 的 值 越 大 ， 破 解 RSA 密码 器 的 难度 就 越 高 ， 其 可 能 需要 许多 
天 、 月 、 年 来 进行 计算 。 一 种 可 能 的 破解 方式 是 通过 蛮 力 的 方式 来 测试 每 一 个 可 能 的 解密 密 
钥 ， 直 到 确定 正确 的 密 钥 并 得 到 有 意义 的 结果 P。 然 而 ,例如 给 一 个 2048 位 的 C， 其 可 能 
需要 相当 长 的 时 间 来 确定 相应 的 2048 位 PP。 基 于 执行 解密 所 需要 的 时 间 ， 可 使 用 定时 攻击 
来 排除 可 能 的 译 码 密 钥 ， 这 就 像 一 个 小 偷 通过 判断 一 个 人 按 预 估 拨 号 解锁 所 需要 的 时 间 ,， 来 
估计 解 开锁 所 需要 的 数字 量 。 

假设 Alice 想 发 送 一 个 秘密 消息 给 Bob， 她 希望 确保 没有 其 他 人 可 以 发 送 消 
息 给 Bob 并 且 没 有 人 假扮 Alice。 

解 : 

1 ) Alice 使 用 其 私有 密 钥 对 秘密 信息 进行 加 密 。 只 要 没有 其 他 人 知道 Alice 的 私有 密 钥 ， 
那么 这 个 加 密 的 信息 就 有 了 Alice 的 签名 。 

2) 之 后 Alice 使 用 Bob 的 公共 密 钥 再 次 对 已 经 加 密 过 一 次 的 信息 再 次 加 密 ; 这 样 只 有 
Bob 可 以 访问 该 信息 ， 而 其 他 知道 Alice 的 公共 密 钥 的 人 无 法 访问 该 消息 。 

3) 在 Bob 接收 到 消息 时 ，Bob 首先 使 用 其 私有 密 钥 对 信息 进行 解密 。 

4) 之 后 Bob 再 使 用 Alice 的 公共 密 钥 来 解密 Alice 发 送 的 信息 。 E 

这 4 个 步骤 要 求 RSA 密码 器 进行 4 次 操作 : 两 次 由 Alice 完成 的 加 密 操作 ， 两 次 由 
Bob 完成 的 解密 操作 。 考 虑 到 RSA 密码 器 加 密 解 密 的 处 理 时 间 ， 这 具有 一 定 的 劣势 。 然 而 ， 
Alice 和 Bob 可 以 使 用 例 11-2 中 的 步骤 来 共享 一 个 对 称 密 钥 ， 并 使 用 这 个 密 钥 来 交换 大 量 
数据 信息 。 相 对 于 非 对 称 密 钥 密 码 器 ， 对 称 密 钥 密 码 器 的 加 密 解密 速度 要 快 ， 并 且 在 实现 同 
样 安全 等 级 的 天 气 下 ， 对 称 密 钥 密码 器 需要 的 密 钥 位 长 度 也 更 少 ; 例如 ，3072 位 的 RSA 与 
128 位 的 AES 实现 的 安全 程度 相当 [43]。 

假设 Alice 和 Bob 希望 交换 很 多 的 秘密 信息 。 因 此 ， 他 们 决定 使 用 对 称 密 钥 
密码 器 而 不 是 非 对称 密 钥 密 码 器 ， 如 RSA ， 来 进行 数据 传输 ， 以 提升 数据 传输 效率 。 

解 : 

1) Alice 和 Bob 使 用 例 11-2 中 给 出 的 4 个 步骤 来 传输 包含 如 128 位 的 对 称 密 钥 给 Bob。 


2 ) Bob 和 Alice 都 知道 了 秘密 的 密 铀 ， 他 们 可 以 利用 这 一 密 钥 使 用 对 称 密 钥 密码 器 = . 


AES) 来 交换 秘密 信息 。 

在 例 11-2 和 例 11-3 中 ， 攻 击 者 有 一 定 的 机 会 实施 中 间 人 攻击 。 例 如 ， 假 设 
以 访问 Alice 的 硬盘 或 执行 定时 攻击 发 现 Alice 的 私有 密 钥 。 进 而 Mary 可 以 拦截 并 获取 例 
11-3 中 的 Alice 使 用 的 对 称 密 钥 。 一 旦 Mary 知道 了 Alice Ail Bob 间 进 行 通 信 的 对 称 密 钥 ， 
Mary 就 可 以 在 Alice 和 Bob 间 监 控 发 送 秘密 信息 。 因 此 ， 需 要 额外 的 安全 策略 机 制 来 检测 
中 间 人 攻击 。 

假设 Alice 希望 向 Bob 发 送 对 称 密 钥 ， 但 是 其 希望 确保 不 受到 中 间 人 攻击 。 
假定 通信 媒介 是 安全 的 ， 并 且 任 意 的 数据 传输 错误 (如 果 有 ) 都 是 可 被 解决 的 。 

解 : Alice 和 Bob 需要 在 其 传输 的 信息 中 加 入 对 其 他 人 不 可 知 的 随机 生成 的 数据 ， 从 而 
确保 在 其 相互 通信 中 没有 中 间 人 存在 [44]。 在 下 文中 ,使 用 “ptxt” 表 示 明 文 ， 使 用 “ctxt” 
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表示 密 文 , “pr” RANMA BA, “pu” RAZA SHA. 

1) Alice 使 用 Bob 的 公有 密 钥 (Bw) 来 加 密 一 串 随机 数字 (rl )， 即 Alice 的 姓名 或 ID 
号 (IDAice); rl 是 由 可 信和 软件 生成 的 。Alice 向 Bob 发 送 该 加 密 信 息 ， 并 等 待 Bob 回应 。 

2) Bob 接收 到 信息 后 ,使 用 其 私有 密 钥 (Bb) 来 解密 信息 并 发 现 rl (标记 为 rlBob-reva)。 

3 ) Bob 使 用 Alice 的 公有 密 钥 (Apu) 来 加 密 并 发 送 包 含 rlaooreva 和 另外 一 串 由 他 的 可 信 
软件 随机 生成 的 数字 (r2) 给 Alice， 发 送信 息 后 ，Bob 等 待 来 自 Alice 的 响应 。 

4) Alice 接收 到 消息 ， 并 使 用 其 私有 密 铀 (A) 来 解密 消息 ， 从 而 发 现 r1 (raticereva) 
和 r2 (r2atice-reva)o Alice 将 比较 rlaticereva 和 rl1。 如 果 两 个 值 相 同 ，Alice 可 以 认为 消息 由 Bob 
发 送 过 来 而 不 是 其 他 人 发 送 的 。 

5) 继而 Alice 使 用 Bob 的 公有 密 钥 (Bw) 加 密 并 发 送 2 aiicereva 给 Bobo 

6) Alice 也 将 生成 一 个 明文 对 称 密 钥 (KKsym-px) 并 使 用 Alice HAA RH (Apr) 将 明文 
对 称 密 钥 ( Ksympxt) 加 密 成 Ksym-omxrr。 在 使 用 Bob 的 公有 密 钥 ( Bou) 将 Kymen 再 次 加 密 从 而 
生成 Kym-oxtz， 并 发 送 给 Bob。 

7) Bob 使 用 其 私有 密 钥 (B) 对 收 到 的 消息 进行 解密 ， 从 而 得 到 Bob 发 送 给 Alice 的 
12(r2Bob-reva)， 通 过 比较 r2 与 r2povrcva, AAMA, Bob 将 知道 其 与 Alice 进行 通信 。 

8 ) Bob 再 使 用 其 私有 密 钥 来 将 接收 到 的 消息 Ksym-omwv 解密 为 Keym-ctxti, FF SFA Alice 的 
公有 密 钥 来 解密 Kymco MMEA Alice 的 Ksym-ptxto 

9) Bob 使 用 Keym-prxr 发 送 确认 消息 给 Alice. 

使 用 三 表示 加 密 ， 使 用 DD 表示 人 解密， 使 用 标记 G 表示 链接 ， 以 上 步骤 可 总 结 如 下 : 


Alice sends: E (Bows teL; TD i rl is a random number 
Bob receives: {r1; IDyicchsop-reva = D(Bee BIB {rl, IDyice}) i 
Bob sends: E (AL. Pec guy SATE 


Alice receives: {rl, r2} uve = D(A, F(A {rl rovar I2j); 
Alice checks: If Pl ~ ea then continue; else stop, 
insecure communication. 


Alice sends: E(B sr ©2ajice-reva) i 
Alice sends: E(B ar 了 Re Ba] 
Bob receives: 2pob_rcva = D(B。-， E (Bou 2 a1 ice-reva) 


Bob checks: If r2,-rcva = I2 then continue; else insecure 
communication. 
Bob receives: Kom = D(A,,, D(B,, E(B, E(A,, K,,)))); 
Bob sends: E (Kym! message...) mw 


2. 椭圆 曲线 密码 体制 

还 有 其 他 类 型 的 非 对 称 密 钥 密 码 器 。 椭 圆 曲 线 密码 体制 (ECC) 在 相 较 于 RSA 提供 相 
同等 级 的 安全 前 提 下 要 求 更 小 尺寸 的 公有 和 私有 密 铀 。 例 如 ，2048 位 的 RSA 5 224 位 的 
ECC 以 及 3072 位 的 RSA 和 256 位 的 ECC[42, 43] 提供 相同 等 级 的 安 人 全。 此外， 因为 RSA 
Al ECC 密码 器 最 多 有 相同 大 小 的 密 钥 需要 相同 的 处 理 时 间 ， 所 以 就 所 需 的 密 钥 存储 空间 和 
处 理 时 间 而 言 ，ECC 效率 更 高 。 这 使 得 ECC 相 较 于 RSA， 尤 其 是 在 需要 更 少 能 量 的 手持 设 
备 领域 ，ECC 更 具 优势 。 然 而 ， 从 数学 上 看 ，ECC 更 加 复杂 。 关 于 ECC 的 描述 留待 关于 密 
码 学 的 教科 书 说 明 。 


11.6 ” 蛤 希 法 


哈 希 类 似 于 用 于 信息 确认 的 指纹 。 一 个 哈 希 函数 转换 整个 信息 为 一 个 独特 的 哈 希 值 ， 
这 个 哈 希 值 也 被 称 为 哈 希 码 ， 或 者 简单 地 就 称 为 哈 希 ， 其 是 少量 字 节 按 一 定 顺序 形成 的 数 
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字 。 通 过 比较 接收 到 的 哈 希 值 与 从 接收 到 的 消息 中 计算 得 到 的 值 ， 来 验证 消息 的 正确 性 ， 如 
图 11-15 所 示 。 如 果 两 个 哈 希 值 匹 配 ， 则 认为 该 消息 合法 ， 和 否则 认为 该 消息 或 接收 到 的 哈 而 
值 或 两 者 均 被 修改 。 此 外 ， 哈 希 函 数 是 单方 向 的 ， 无 法 通过 几 字 节 的 哈 厕 值 恢复 出 初始 的 消 
息 。 如 果 没 有 秘密 钥匙 来 生成 一 个 哈 希 ， 则 认为 该 哈 希 函数 是 标准 的 。 


消息 发 送 传输 消息 接收 
发 送 哈 希 值 如 果 相 等 
哈 希 iA. AIS; 
O> | ra. 
函数 消息 不 合法 
接收 到 的 哈 希 什 
发 送 端 接收 端 ” 一 > 


11-15 ”使 用 哈 希 进行 消息 认证 


哈 希 简化 了 消息 确认 过 程 ， 消 息 确 认可 能 会 使 一 项 艰难 的 任务 ， 尤 其 当 消 息 非 常 大 时 ， 
如 消息 为 一 幅 图 片 或 一 个 二 进 制 文 件 。 图 11-16 说 明了 一 个 使 用 8 位 按 位 XOR 逻辑 的 简单 
标准 哈 希 函 数 。 在 图 中 ，ASCII 字符 串 “HELLO” 生 成 了 一 个 哈 希 值 8'h8E。 可 见 ， 仅 仅 
从 哈 希 值 8'h8E 中 是 无 法 确定 初始 数据 “HELLO” 的 。 标 准 的 哈 希 也 被 称 为 校 验 和 ， 校 验 
和 在 检测 数据 传输 错误 中 经 常 被 使 用 。 


消息 消息 消息 消息 消息 
字 节 0 字 节 1 字 节 2 字 节 3 字 节 4 
'H' ‘E’ Hit a ki ʻQ' 
ASCII 码 : 8'h48 8'h45 8'h4C 8'h4C 8'h4F 


man L iN). (xor) 8'h84 («oR 8'hC (cor) (xon) 8'hC1 (xor) 8'h8E ies 


11-16 ”使 用 8 位 按 位 XOR 的 简单 标准 哈 希 函数 。 对 字符 消息 “HELLO ”其 生成 了 1 字 节 的 哈 希 值 


假设 Alice 希望 向 其 朋友 分 享 一 个 重要 的 个 人 信息 ， 故 而 她 决定 在 发 送 消息 
之 前 给 消息 加 上 数字 签名 。 | 
解 : 按 以 下 步 又 进行 。 其 中 “H” 表 示 哈 希 函数 ,“M” 表 示 消 息 ,“HV” 表 示 哈 希 值 : 


Alice computes: HV = H(M) 

Alice signs: E(A,, HV) 

Alice sends: {M, BAL, Hv)}; note M is not 
encrypted, anybody can read it 

Friends receive: {M, E(A,,, HV) },.., 

Friends extract signature: HV eva ” D (Ru， E, EV) Cal 

Friends check: If H(M...4) = HV ova then accept 


M else reject M wå Ki 


revd’ 


软件 公司 也 可 以 使 用 例 11-5 中 说 明 的 技术 来 安全 地 分 享 不 保密 的 软件 产品 。 

哈 希 函数 必须 是 防 冲突 的 ， 即 两 个 不 同 的 消息 不 可 以 产生 相同 的 哈 希 值 。 例 如 图 11-16 
中 简单 的 哈 希 函数 并 不 是 防 冲突 的 哈 希 函数 。 如 图 11-17 所 示 ， 在 使 用 相同 的 初始 向 量 IV = 
8’hCC AY, AFH “WORLD” AIA “HELLO” 计算 得 到 的 哈 希 值 是 相同 的 。 

由 NIST[38] 开发 的 安全 哈 希 算法 (SHA) 现在 包含 4 种 哈 希 算法 : 初始 SHA-1，SHA- 
256, SHA-384 和 SHA-$12。 对 于 字符 串 “HELLO” 和 “WORLD”，SHA-1 生成 了 下 列 两 
个 哈 希 值 [45]。 这 两 个 哈 希 值 是 非常 不 同 的 。 然 而 ，SHA-1 也 并 不 是 防 冲突 的 [40]. 
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消息 消息 消息 消息 消息 
字 节 0 字 节 1 字 节 2 字 节 3 字 节 4 
WW’ ‘ty R y: 'D’ 
ASCII 码 : 8'h57 8’h4F 8'h52 8'h4C 8'h44 


mia (WV) O (orj (xon) = C= (ron) ee a 


1-17 ”通过 实例 说 明 哈 希 函 数 是 不 防 冲突 的 ， 两 个 消息 一 “WORLD” 和 “HELLO" 一 一 
生成 了 相同 的 哈 希 值 


消息 : “HELLO” 
SHA-lhashvalue:c65f99f8c5376adadddc46d5cbcf5762f9e55eb7 


消息 :“WORLD” 

SHA-lhashvalue:1a5db926797b9ae16ad56ec2c143e51a5172a862 

每 一 个 哈 希 算法 成 功 地 生成 了 一 个 512 位 (SHA-1 和 SHA-256 ) BK 1024 位 ( SHA-384 
和 SHA-512) 信息 块 ， 并 最 终 分 别 生 成 一 个 160、256、384 或 521 位 的 哈 希 值 。 在 一 个 信 
息 进行 哈 希 之 前 ， 必 须 添 加 额外 的 位 (如果 需 要 )， 再 与 表示 消息 大 小 的 数 进 行 连接 。 通 过 添 
加 并 连接 生成 的 输入 消息 的 长 度 必须 是 块 大 小 的 整数 倍 。 例 如 ， 图 11-18 说 明了 使 用 SHA- 
512 算法 的 输入 消息 格式 。 先 在 消息 末尾 添加 一 定数 量 的 0， 再 将 其 与 使 用 128 位 的 无 符 
号 整数 表示 的 消息 长 度 入 连接 从 而 生成 最 终 的 长 度 为 M* 1024 位 的 消息 ， 其 中 M 为 整数 。 
表 11-8 列 出 了 各 种 SHA 算法 的 相关 特性 。 


如 果 必 要 ， 
se Ny, << 128 位 一 一 一 二 








M * 1024 位 
11-18 ”使 用 SHA-512 哈 希 算法 的 消息 格式 


表 11-8 ”安全 哈 希 算法 特性 


特 性 SHA-1 SHA-256 SHA-384 SHA-512 


mm) | | 5 | 3 | sw 


BK 1024 
BEAT OKRA) zr 
上 上 Co | a | o | v 


如 图 11-16 中 简单 的 哈 希 函数 ， 一 个 SHA 以 k 位 的 IV 为 开始 ， 一 般 情况 下 k 小 于 块 
Kihn (k<n), 再 经 过 多 次 压缩 从 而 生成 第 一 块 的 哈 希 值 ， 这 一 哈 希 值 将 作为 下 一 块 的 IV。 
继续 以 上 过 程 ， 直 到 生成 最 终 的 哈 希 值 ， 这 一 哈 希 值 也 被 称 为 消息 摘要 。 对 消息 的 任意 改动 
都 会 导致 生成 一 个 不 同 的 哈 希 值 ， 使 得 其 无 法 匹配 伴随 初始 消息 一 起 传送 的 哈 希 值 。SHA 
算法 既 可 以 用 于 明文 输入 ， 也 可 以 用 于 密 文 输入 。 


11.7 WERK 


一 个 标准 的 哈 硕 是 不 能 被 保护 的 。 而 且 还 有 可 能 让 对 手 同时 改变 消息 值 和 它 的 哈 希 值 而 
不 被 发 现 。 另 一 方面 ， 加 密 哈 硕 算 法 一 个 密 钥 来 产生 一 个 哈 希 值 。 在 这 种 情况 下 ， 这 种 哈 希 
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被 称 为 基于 关键 字 的 哈 希 。 下 面 将 介绍 基于 关键 字 的 哈 布 算法 的 两 个 实例 。 
11.7.1 消息 认证 码 


消息 认证 码 (MAC) 也 叫 加 密 MAC ( CMAC)， 需 要 密码 来 生成 一 个 安全 哈 希 。 例 如 ， 
图 11-19 表示 了 使 用 nn 位 块 的 AES-CBC 加 密 器 和 一 个 大 位 的 密 钥 (天 ) 生成 MAC 的 过 程 。 
图 中 位 的 密码 KI 和 天 2 取决 于 消息 的 大 小 和 一 个 常数 ， 其 中 消息 的 大 小 由 天 确定 ， 常 数 
取决 于 n[40]。 如 果 消 息 的 大 小 是 一 个 由 n 整除 的 整数 ， 那 么 将 使 用 常数 Kl1 ; 和 否则， 最 后 的 
块 要 被 填充 1 和 0 来 创建 一 个 n 位 的 最 后 的 块 ， 然 后 常数 K2 要 被 用 到 。 最 后 的 加 密 块 中 的 
几 字 节 被 选择 作为 MAC。 


输入 块 





MAC 
11-19 AES-CBC-MAC; MAC 长 度 为 m 位 , Ht m<n 


这 个 组 合 缩写 AES-CBC-MAC 表示 用 来 产生 MAC 的 CBC 模式 中 的 AES 密码 。AES- 
CBC-MAC 有 一 个 优点 就 是 能 够 同时 实现 加 密 和 基于 关键 字 的 哈 希 。 

如 果 在 一 个 或 多 个 输入 块 中 有 意外 或 手动 的 改动 ， 这 个 算法 产生 一 个 不 同 的 MAC。 因 
此 ， 对 方 如 果 不 知道 密 钥 而 去 改变 输入 ， 仍 能 产生 相同 MAC 的 事情 是 不 可 能 的 。 然 而 ， 发 
送 者 和 接收 者 都 需要 知道 这 个 密 钥 ， 这 种 唯一 标识 用 来 产生 一 个 MAC。 男 外 ，MAC 作为 一 
个 明文 或 密 文 的 输入 而 产生 。 


11.7.2 ”基于 哈 希 的 MAC 


与 CMAC 需要 一 个 密码 相对 比 ， 基 于 哈 希 的 MAC (HMAC) 需要 一 个 更 有 效 (计算 量 
更 少 ) 的 标准 哈 希 算法 ， 如 SHA-256。HMAC 要 在 两 个 散 列 周期 中 使 用 两 个 额外 的 密 (S) 
码 Si (输入 S) 和 So (输出 S) 来 计算 而 得 ， 这 两 个 密码 由 一 个 密 钥 K 和 两 个 整数 常数 而 得 ， 
两 个 整数 常数 分 别 叫 作 输入 摘要 GPAD) 和 输出 摘要 (oP4D)。 

iPAD 和 oP4D 本 身 不 会 使 这 个 哈 硕 算法 更 安全 ; 相反 ， 它 们 通过 一 个 被 称 为 白化 的 技 
术 来 提高 密 钥 的 质量 [46]。 例 如 ， 给 出 一 个 初始 16 位 的 密 钥 = 16°h1234, iPAD = 8°h36, 
一 个 由 作为 白化 技术 的 按 位 KOR (@) 产生 的 32 位 的 Si: 

K: 由 0 产生 的 原始 密 钥 00000000 00000000 00010010 00110100 (0x00001234) 
重复 的 iPAD (iPAD’): 00110110 00110110 00110110 00110110 (0x36363636) TTET 
由 


32 位 Si: 00110110 00110110 00100100 00110010 (0x36362432) 
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给 出 消息 M, BHK, iPAD 和 oP4D 的 值 ， 一 个 标准 的 哈 希 算法 ，HMAC 的 产生 如 下 。 

HMAC 算法 : 

1) 如 公式 (11-7) FIR, MH KA iPAD 产生 Si; 即 Si = 天 由 ip4D+。 原 始 密 钥 可 以 由 摘 
要 0 产生 ，iP4D 需要 被 重复 来 产生 所 需 长 度 的 Si。 

2) 由 Si 和 MM 拼接 产生 哈 希 值 (HV); BI HV =H ({Si, M})， 其 中 {} 表示 拼接 。 

3) 通过 玉 和 oPAD 产生 So ( 即 oP4D = 8h’*5C)。So 由 与 $i 相似 的 方式 产生 ; 即 So = 
K ® oPAD', 

4) So 拼接 HV 产生 HMAC; 即 HMAC =H ({So, HV}). 

ASK (11-8) 总 结 了 这 4 个 步骤 。 

HMAC (K, M) =H ({K @ oPAD*, H ({K @ iPAD*, M})}) ( 11-8) 


11.8 ”通过 硬件 存储 加 密 密 钥 


正如 本 章 开 头 所 讨论 过 的 ， 保 密 性 和 完整 性 对 计算 机 安全 而 言 是 至 关 重 要 的 。 然 而 ,在 
硬盘 上 存储 加 密 密 钥 对 系统 构成 安全 隐患 和 威胁 。 安 全 存储 许多 密 钥 ， 比 如 在 一 个 组 织 中 用 
到 的 这 些 ， 需 要 在 防 算 改 的 IC 内 部 创建 一 个 绑 定 保密 密 钥 的 密 钥 结构 。 这 被 称 为 通过 硬件 
或 绑 定 数据 到 平台 的 数据 存储 。 

NIST 给 出 了 一 组 推荐 的 密 钥 大 小 和 推导 技术 [38]。 人 例如， 推荐 了 2048、3072 或 4096 
位 密 钥 大 小 的 RSA， 或 2356、384 位 密 钥 大 小 的 ECC 来 对 公共 密码 加 密 。 类 似 地 ， 推 荐 了 
256、384 和 512 位 的 SHA 进行 哈 希 。AES-CBC-MAC 是 保护 保密 性 和 完整 性 的 推荐 之 一 。 
仅 为 了 完整 性 ， 推 荐 使 用 SHA-256 的 128 位 HMAC。 读 者 参考 NIST 文件 可 以 得 到 应 用 程 
序 的 具体 建议 。 加 密 密 钥 的 安全 存储 必须 由 一 个 可 信 计 算 基 (TCB ) 来 维持 。 


11.8.1 ZAAR 


一 个 密 钥 结构 ， 或 者 说 密 钥 链 ， 通 过 父亲 和 叶子 结 点 分 层次 地 组 织 为 一 棵 树 。 图 11-20 
表示 了 一 个 或 多 个 密 钥 链 的 组 织 示例 ， 每 一 个 带 有 一 个 或 多 个 结 点 [47, 48]。 在 这 个 图 中 ， 
父亲 结 点 用 方 框 表 示 ， 它 与 保护 孩子 结 点 值 的 存储 密 钥 有 关 。 叶 子 结 点 ， 表 示 为 三 角形 ， 与 
签字 密 钥 有 关 ， 也 被 称 为 签名 密 钥 。 例 如 ， 它 被 用 来 加 密 邮 件 信 息 的 散 列 ， 或 程序 验证 结果 
的 输出 。 表 示 为 圆 形 的 叶子 结 点 表示 了 少量 的 数据 ， 例 如 ， 加 密 大 数据 文件 的 对 称 密 钥 。 一 
个 密 钥 结构 也 包括 其 他 叶子 结 点 ， 比 如 身份 证 明 密 钥 ( AIK) 。 它 是 一 个 绑 定 平台 ， 而 且 比 
如 会 用 在 服务 器 中 验证 身份 的 应 用 程序 的 非 对 称 密 钥 。 

根 父 亲 结 点 由 一 个 安全 存储 在 防 算 改 IC 内 部 的 加 密 根 键 (SRK) 保护 起 来 。 保 密 密 铀 
基于 物理 防 克隆 技术 ( PUF)， 这 种 技术 已 被 证 实 可 以 抵抗 多 种 类 型 的 攻击 [49-51]。 一 个 箭 
头 表示 一 次 密 钥 的 推导 。 每 一 个 父亲 和 叶子 结 点 包括 一 系列 的 密 钥 资料 ， 其 中 包含 一 个 被 称 
为 随机 数 (只 使 用 一 次 的 数字 ) 的 特殊 数字 ， 而 且 也 可 能 包括 一 个 或 多 个 确定 密 钥 类 型 的 党 
数 。 这 些 密 钥 本 身 没有 被 保存 ; 只 有 每 个 结 点 的 密 钥 资料 被 安全 地 保存 了 下 来 。 另 外 ， 在 一 
个 孩子 密 钥 可 以 被 使 用 之 前 ， 授 权 用 户 通常 需要 提供 一 个 或 多 个 正确 的 密码 ， 它 们 也 被 称 为 
授权 数据 。 密 钥 链 可 以 在 多 种 方式 中 被 构建 [48, 52-55]， 比 如 接 下 来 将 要 讨论 的 这 些 。 


11.8.2 ”存储 和 访问 
图 11-21a 表示 了 一 个 含 10 个 结 点 的 密 钥 链 ， 其 中 有 4 个 父亲 结 点 ， 分 别 标 识 为 0、2、 
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5 和 7， 还 有 6 个 叶子 结 点 ， 分 别 被 标识 为 1、3、4、7、8 和 9。 随 机 数 No 被 分 配 到 根 父亲 
结 点 0，Ni 被 分 配 到 数据 叶子 结 反 1，Ns 被 分 配 到 签名 叶子 结 点 3， 等 等 。 如 图 11-21b 所 示 ， 
每 个 结 点 生成 的 记录 被 本 地 或 远程 地 安全 保存 在 服务 器 中 。 每 条 记录 都 包含 了 一 个 密 钥 标识 
号 ， 例 如 ， 绪 点 号 ; 父亲 标识 号 ; 一 个 密码 和 哈 希 算法 的 名 字 ， 称 为 密码 算法 的 标识 符 ; 加 
密 密 钥 资 料 ; 还 有 整个 记录 的 加 密 哈 希 。 


Pa SIC 


一 > EARE ( 如 HMAC ) 
O 父亲 结 点 

A 叶子 结 点 ( 签名 密 钥 ) 
O 叶子 结 点 ( 加 密 密 钥 ) 





iE 
moma 
' 


11-20 REDAK IC 内 部 SRK 的 密 钥 链 


防 篡改 IC 





(ID) 







n 
| | 
| , ome | 父亲 标识 号 
| | (PID) 
| | 
| | 密码 算法 标识 符 
(CAIs) 
| (比如 文件 X 的 AES 密 钥 ) 
| | 
| | 加 密 密 钥 资料 
(比如 个 人 RSA | (EKM 
| 私有 密 钥 ) | 
| | 记录 基于 关键 字 的 哈 希 
sa RT Ee 5 (RHV) 
a) 一 条 保密 密 钥 b ) 一 条 结 点 记录 


11-21 一 个 密 钥 结构 示例 : a) 密 钥 链 ; b) 作为 一 条 记录 的 结 点 [53, 55] 
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SRK 是 散人 每 一 个 SCP 或 SP 芯片 的 安全 唯一 密 钥 。 钥 匙 可 以 在 安装 过 程 中 通过 不 干 
预 操作 系统 的 一 套 安全 的 VO 机 制 被 编程 到 芯片 [55]。 在 这 个 图 中 ， 根 父亲 结 点 0 的 密 钥 
,| 被 用 来 保护 它 的 两 个 孩子 结 点 1 和 2 ; 数据 叶子 结 点 1 的 密 钥 被 用 来 保护 比如 一 个 128 位 的 
500| AES 密 钥 ， 该 密 钥 被 用 来 加 密 一 个 较 大 的 用 户 文 件 或 一 个 较 大 的 应 用 数据 ; 父亲 结 点 2 的 密 
钥 被 用 来 保护 它 的 4 个 孩子 结 点 3、4、5 和 7; 等 等 。 
密 钥 链 通过 SCP 中 受信 任 的 固件 模块 (TFM) 或 通过 运行 在 SP 上 可 信和 软件 模块 (TSM) 
来 维持 (也 可 参考 11.4 节 )。TFM/TSM(TFM 或 TSM) 将 包含 一 系列 的 应 用 程序 接口 (APT)， 
比如 操作 系统 所 使 用 的 “Add2Keychain ”和 “Encrypt”， 或 一 个 应 用 程序 请 求 的 安全 加 密 
服务 。 
在 以 下 示例 中 ,假设 每 一 个 结 点 可 以 使 用 不 同 的 加 密 和 哈 希 算法 。 另 外 ,为 了 简化 ,不 
需要 授权 数据 。 明 文 标注 ( ptxt) 的 所 有 项 目 都 被 认为 是 SCP 或 SP 中 安全 的 。 这 个 示例 假 
设 一 个 应 用 正在 请 求 SCP 或 SP 安全 服务 。 
应 用 软件 请 求 SCP 的 TFM 或 SP 的 TSM (表示 为 TFM/TSM)， 来 将 父亲 结 
点 0 添加 到 图 11-21 中 的 密 钥 链 A 上 。 
解 : 
应 用 程序 任务 ; 
使 用 以 下 的 API， 发 送 一 个 请 求 到 TFM/TSM 来 添加 根 父 亲 结 点 0 并 创建 一 个 密 钥 链 ; 
TFM/TSM 将 使 用 应 用 程序 提供 的 cipher0 和 哈 希 算法 algHash0 来 加 密 并 生成 一 个 密 钥 资料 
的 基于 关键 字 的 哈 希 。 根 结 点 0 的 父亲 是 空 。 


Addkey2 Keychain(keychain _ A, 0, Null, cipher0, algHash0, nodeType0, RO) //nodeType: parent 


TFM/TSM {£4 : 
生成 一 个 随机 数 ， 然 后 使 用 SRK 来 加 密 这 个 随机 数 和 结 点 0 的 密 钥 资料 。 记 录 也 使 用 
SRK 进行 基于 关键 字 的 哈 希 。 隐 藏 记录 返回 到 应 用 程序 存储 下 来 。 下 面 ,，“ 结 点 类 型 ”表示 
父亲 或 叶子 (数据) 结 点 ，R 表示 在 存储 器 中 的 密 钥 记录 数据 结构 的 引用 ,“KID” 表 示 一 个 
密 钥 结 点 ID (一 个 数字 ),“ PID” 表 示 一 个 父亲 结 点 ID (一 个 数字 ),“ EKM ”表示 加 密 密 
钥 资 料 ，N 是 一 个 随机 数 ，HV 是 一 个 喻 希 值 。SRK 是 安全 根 密 钥 ， 如 果 使 用 TFM 实现 这 
HE API， 它 就 存储 在 SCP 芯片 中 ， 或 者 如 果 使 用 TSM 实现 这 些 API， 它 就 保存 在 SP 芯片 
中 。 特 别 地 ，TFM/TSM 使 用 SRK 来 完成 以 下 的 任务 ， 因 为 KID=0, PID = null: 
Addkey2 Keychain(keychain, KID, PID, cipher0, algHash0, nodeType, R) 
begin 
N pt =nonce();;  //generate a nonce for root Node 0 
EKM crt = Eiphero (SRK {N yx» odeType}); —_ //encrypt key material using SRK since PID= null 
HV = HiigHasno (SRK, {KID, PID, cipher0, algHashO, EKM.,,,,});  //keyed hash of the record 
R={KID, PID, cipher0, algHash0, EKM + HV} 
end 时 


mere 应 用 软件 请 求 TFM/TSM 来 添加 数据 叶子 结 点 1 到 图 11-21 中 密 钥 链 A 的 父 
MAR OE. 

解 : 

应 用 程序 任务 ; 
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使 用 以 下 的 API, TFM/TSM 被 指示 添加 一 个 加 密 密 钥 结 点 到 密 钥 链 A 的 父亲 结 点 0 E; 
应 用 程序 提供 cipgerl 和 algHashl 来 对 结 点 1 的 密 钥 资料 进行 加 密 和 基于 关键 字 的 哈 希 ， 其 
中 KK 表示 一 个 密 钥 (也 可 以 参考 11.647). 


Addkey2 Keychain(keychain _ A,1, 0, cipherl, algHash1, nodeTypel, R1); //node type: data 


TFM/TSM 任务 : 

完成 以 下 的 操作 ， 因 为 PID = 0: 

RO= getParentRecord(keychain_A,0); //0, Null, EKMO.,,,,, cipher0, algHash0, HV Oead 
HVO’ = H gigttasho (SRK, {0, Null, cipher0， algHash0, EKMO,,., }); //re-compute hash 
HV0’=?HV60O,,,, if yes, continue; otherwise, raise an exception //authenticate Node 0 
EKM0 ,i = Deiphero (SRK, EKMO ctxt ); //EKMO contains NO pix 

Ko. = Eiphero (SRK, NO pi» 1, nodeTypel); //generate key for Node 1; 

N1 pie = nonce(); - //generate a nonce 

EKM1 = E ciphers (Kona > {N1 yw» nodeTypel}); //encrypt Node 1’s key material 

HV1= H agnashı (Ko. » {1, 0, cipher1, algHash1, EKM1.,., }); //hash key material 

R1={I, 0, cipher1, algHashi, EKM1,,,,, HV1} //Record is returned to application a 


应 用 程序 软件 请 求 TFM/TSM， 并 使 用 图 11-21 中 第 一 个 数据 叶子 密 钥 来 对 
应 用 程序 数据 进行 加 密 。 

解 : 

应 用 程序 任务 : 

使 用 以 下 的 API，TFM/TSM 被 指示 使 用 密 钥 链 A 中 的 加 密 密 钥 1 来 对 应 用 数据 进 
行 加 密 ， 其 中 dataywm 和 dataci 引用 内 存 中 的 应 用 程序 数据 结构 。( 也 可 以 参考 例 11-6 和 
例 11-7 ) 


Encrypt(keychain _ A, 1,0, data px, application _cipher, data +x); //use application cipher 


TFM/TSM {£4 ; 
使 用 数据 叶子 结 点 1 的 密 钥 资料 产生 加 密 密 钥 1， 然 后 使 用 应 用 程序 提供 的 密码 对 应 用 
数据 进行 加 密 。 应 用 程序 数据 作为 密 文 返回 到 应 用 程序 中 。 


RO= getPrarentRecord(keychain_A,0); //0,Null,cipher0,algHash0,EKMO0O.,, HV O pead 
HVO’ = H aigrasho (SRK. {0, Null, cipher0,algHash0, EKMO.,.,});  //recompute hash 

HVO’ =? HV O vaq if yes, continue; if no, raise an exception 

EKM0 pect = Deiphero (SRK, EKMO a1); //will use NO y 

Ko = Eiphero (SRK, {NO pix 1, nodeTypel});  //Key for Node 1; 

R1= getRecord(chain_A,1);  //A,0,cipherl, algHashl, EKM1,,.,, HV 1 pead 

HVY = H aguas (Ko. > {1, 0, cipher1, algHash1, EKM1,,.,});  //recompute hash 
HV1’=?HV1,..4 if yes, continue; if no, raise an exception 


EKM1 pryt = Deiphers Ko» EKM ie);  //will use N1,,,, and nodeTypel 502 
K gata—leaf = Ecipheri (Kor »{N1 pee» nodeTypel});  //generate the encryption key 
data cre = E application cipher (K data—leaf > Aata yr, )s  //encrypt data 2 


K 11-9 表示 了 图 11-21a 中 结 点 0 ~ 9 的 假想 记录 ; 只 有 4 条 记录 表示 了 出 来 。 这 个 图 
中 的 事实 是 ， 密 钥 链 父亲 结 点 0 被 SRK 隐藏 在 IC 中 ; 结 点 1 和 2 被 父亲 结 点 0 隐藏 起 来 ; 
结 点 3、4、5 和 7 被 结 点 2 隐藏 起 来 ; 结 点 6 被 结 点 5 隐藏 起 来 ; 结 点 8 和 9 被 结 点 7 隐藏 
起 来 ， 这 个 密 钥 链 可 以 说 是 被 硬件 密封 起 来 。 
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R 11-9 使 用 图 11-21b 中 格式 表示 的 图 11-21a 中 的 记录 密 钥 链 
密 钥 标识 号 加 密 算法 标识 符 整个 记录 的 基于 关键 字 的 哈 希 
(KID ) (PID ) (CAI) (RHV) ? 


1. 非 加 密 密 钥 资料 表示 ; 2. 模拟 值 


11.8.3 ”应 用 示例 : 密 钥 链 作为 访问 控制 


一 个 结 点 离 密 钥 链 的 根 越 远 ， 越 需要 更 多 的 计算 量 来 确定 一 个 密 钥 。 因 此 ， 使 用 分 层 的 
授权 数据 访问 方案 ， 一 个 密 钥 链 可 以 被 用 来 实现 多 级 的 访问 控制 (11.1.4 节 )。 图 11-22 表示 
了 一 个 有 三 个 部 门 的 公司 的 数据 组 织 。 在 每 一 个 部 门 中 ， 数 据 被 分 类 到 几 个 安全 级 别 中 。 例 
如 ， 在 工程 部 门 中 ， 数 据 被 分 为 4 类 ， 它 们 分 别 被 工程 师 、 产 品 工程 师 、 项 目 经 理 和 主任 访 
问 。 例 如 ， 任 何 作为 普通 和 特权 “工程 师 ” 的 人 都 有 权 访 问 被 分 类 为 “工程 数据 ”的 所 有 数 
据 。 产 品 工程 师 有 权 访 问 所 有 的 “产品 数据 ”以 及 所 有 的 “工程 数据 ”。 然 而 主任 有 权 访 问 
“指导 数据 ”， 以 及 他 们 部 门 的 其 他 所 有 数据 。 


防 算 改 IC 





| | 
0: 最 底层 
(比如 工程 师 ) be Ea = | 
SP HE 1: 
| (比如 产品 工程 师 bd: AGAO UAOO mae ZN O | 
分 类 2: 
| “(比如 项 目 经 理 ) bj … 人 (人 A & .A | 
| 分 类 3: 最 高 层 | 
| (比如 主任 ) d= An AN r3 | 
| | 
| 和 | 
工程 部 人 力 资源 部 产品 销售 部 3 


11-22 ”一 个 访问 控制 密 钥 链 [54] 


密 钥 链 通 过 使 用 SRK 所 保护 的 每 类 数据 (图 11-22 中 有 4 类 ) 需要 的 RSA 公有 /私有 
密 钥 对 和 每 个 结 点 需要 的 一 个 随机 素数 被 组 织 起 来 [54]。 使 用 分 类 j 到 分 类 0 通道 中 的 所 有 
公共 密 钥 ， 可 以 计算 出 每 一 类 j = 0 的 数据 的 初始 授权 数据 。 为 了 访问 分 类 j 中 的 一 个 叶子 
结 点 k， 使 用 分 类 j 中 指定 的 最 初 的 授权 数据 ， 分 类 /7 到 分 类 0 通道 中 的 所 有 私有 密 钥 ,还 
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有 指定 到 结 点 大 的 随机 数 ， 会 得 到 一 个 授权 数据 。 


因此 ， 一 个 授权 数据 的 计算 一 例如 最 底层 分 类 “工程 数据 ”一 将 仅 包含 一 个 私有 密 


钥 ， 由 于 顶层 分 类 “指导 数据 ”的 授权 数据 的 计算 需要 用 到 4 个 私有 密 钥 ,会 使 “指导 数据 ” 
更 安全 。 
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尽管 图 11-21 中 的 密 钥 链 可 以 被 硬件 隐藏 起 来 ， 但 其 仍然 可 以 受到 重 放 攻 击 ， 因 此 是 
不 安全 的 ( 11.3.3 节 )。 恶 意 软件 可 以 保存 整个 密 钥 链 ， 等 到 密 钥 链 更 新 时 ， 发 起 重 放 攻 击 。 
这 样 ， 它 用 更 新 的 密 钥 链 代 替 之 前 存储 的 密 钥 链 ， 从 而 可 以 阻挡 对 隐藏 数据 的 访问 且 可 以 使 
合法 用 户 无 法 进入 系统 。 除 了 使 用 存储 在 防 干扰 的 集成 芯片 中 的 哈 希 密 钥 链 ， 没有 其 他 方法 
可 以 检测 到 密 钥 重 放 攻 击 。 每 一 次 密 钥 链 中 的 密 钥 被 用 到 时 ， 密 钥 链 进行 更 新 ， 哈 希 树 需要 
重新 计算 。 给 定 的 密 钥 链 有 时 候 很 大 ， 包 含 上 千 个 密 钥 ， 除 非 利 用 哈 硕 树 ， 否 则 这 将 是 一 项 
昂贵 的 任务 ， 在 之 后 举例 中 将 会 讨论 。 


11.9.1 应 用 示例 : 密 钥 链 认 证 


图 11-23a 展示 了 图 11-21a 中 的 密 钥 链 对 应 的 哈 希 树 ， 也 称 为 默 克 尔 哈 希 树 [56]。 图 中 
箭头 有 两 个 指向 一 一 从 父 结 点 指向 子 结 点 的 方向 表示 生成 密 钥 ， 从 子 结 点 指向 父 结 点 的 方向 
表示 生成 哈 希 。 每 一 次 密 钥 链 更 新 或 者 密 钥 被 使 用 时 ， 不 是 将 整个 哈 希 树 重 新 计算 一 过 〈 密 
集 型 任务 )， 而 是 计算 父 结 点 的 子 结 点 哈 希 然后 存储 在 父 结 点 中 。 根 结 点 哈 硕 ， 也 叫 作 安全 
RAA (SRH), FEE ICH, WEER. 

图 11-23b 中 展示 了 用 于 父 结 点 的 记录 结构 。 在 此 例 中 ， 每 条 父 结 点 记录 包括 其 子 结 点 
记录 的 哈 希 值 ， 而 不 是 记录 哈 希 值 (RHV) (图 11-21b)。 图 11-24 展示 了 用 模拟 值 作 为 结 点 
内 容 的 密 钥 链 哈 希 树 示 例 。 图 中 8 位 按 位 异 或 作为 哈 希 函数 。 假 设 图 中 的 每 个 父 结 点 包含 附 
加 16 位 内 容 ， 如 图 11-23b 所 示 ， 用 于 从 其 子 结 点 内 容 中 计算 哈 希 值 。 叶 结 点 只 有 16 位 数 
据 而 没有 哈 希 值 。 

图 11-24a 展示 了 对 于 初始 哈 希 树 根 哈 希 值 8?hC0 ( Verilog 的 十 六 进 制 表示 ) 的 计算 过 
程 。 哈 希 值 作为 一 个 SR 万 存储 于 芯片 中 。 在 图 11-24b 中 ， 子 结 点 的 内 容 从 16”h2345 BH 
16’h2355 一 一 只 有 一 位 变化 。 由 此 产生 了 新 的 根 哈 希 值 8:hD0。 如 果 这 个 变化 是 由 正常 的 更 
新 引起 的 ， 那 么 8'hD0 将 代替 SRH = 8”"hC0。 男 一 方面 ， 如 果 这 个 结果 是 由 一 次 攻击 引起 
的 ， 这 个 变化 将 会 被 检测 到 并 且 8’hDO 不 会 匹配 SRH = 8’hC0 存储 到 集成 芯片 中 。 


11.9.2 ”应 用 示例 : 内 存 认证 


默 克 尔 哈 希 树 还 有 别 的 应 用 ， 例 如 图 11-25 中 所 示 用 于 内 存 认证 的 n 元 哈 希 树 。TSM 的 
完整 性 可 以 通过 验证 其 在 内 存 中 的 指令 和 数据 来 保护 。 每 一 个 结 点 都 有 nn 个 子 结 点 。 当 n= 
2 时 ， 对 应 哈 希 树 是 二 又 树 。 整 个 虚拟 或 者 物理 内 存 ， 或 者 一 部 分 ， 都 可 以 被 组 织 成 用 每 个 
结 点 内 存 块 构成 的 n 元 哈 希 树 。 叶 结 点 块 包 括 指令 或 者 数据 ， 而 父 结 点 块 只 包含 从 子 结 点 块 
计算 的 哈 硕 值 。 

图 11-26 展示 了 一 棵 用 4 个 数据 块 作为 叶 结 点 和 3 个 哈 硕 块 作为 父 结 点 的 二 叉 哈 硕 树 。 
在 图 中 ， 假 设 每 块 的 大 小 都 为 2 字 节 (2B), H 8 位 按 位 异 或 作为 哈 希 函数 。 每 个 父 结 点 块 
存储 两 个 8 位 哈 希 值 ， 从 其 两 个 子 结 点 块 获得 。 根 结 点 块 的 哈 希 值 作 为 SRH 存储 在 IC 中 。 
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在 图 中 ， 原 始 SRH = 8'h00。 每 个 结 点 块 的 改变 (包括 父 结 点 和 叶 结 点 ) 都 会 导致 根 哈 硕 值 
的 改变 。 注 意 到 结 点 内 容 的 改变 只 引起 从 其 到 根 结 点 路 径 上 结 点 内 容 的 改变 。 这 样 ， 当 只 有 
一 个 结 点 块 更 新 之 后 只 有 一 小 部 分 的 结 点 块 受到 影响 。 


防 干 扰 集成 芯 


根 哈 希 随机 数 
nerator 


密 钥 


(ID) 

父 结 点 标识 号 
(PID) 

加 密 算 法 标识 和 
(CAIs) 


加 密 密 钥 资料 
(EKM) 





—> 密 钥 派生 一 > 哈 希 计算 
a) 密 钥 链 A b ) 父 结 点 记录 


11-23 ” 密 钥 链 的 默 克 尔 哈 希 树 表示 






11@11@ E6@26=C0 11®11@F6@26 = DO 





a) 原始 密 钥 链 b) 更 改过 的 密 钥 链 
11-24 用 8 位 按 位 异 或 作为 哈 希 函数 计算 根 蛤 希 : a) 原始 哈 希 树 ， 根 哈 希 值 = 8:hC0; 
b) 被 更 改过 的 哈 希 树 ， 根 哈 希 值 = 8:hD0 


组 织 n 元 哈 希 树 有 很 多 种 方法 。 例 如 ， 有 32B 节点 块 的 哈 希 树 可 以 用 有 1B 哈 希 值 的 
32 元 蛤 希 树 组 织 ， 或 者 用 有 2B 哈 希 值 的 16 元 哈 希 树 组 织 ， 或 者 用 有 4B 哈 希 值 的 8 元 哈 
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希 树 组 织 ， 或 者 用 有 16B (128 位 ) 哈 希 值 的 二 叉 哈 希 树 组 织 。 此 外 ， 父 结 点 块 可 以 和 叶 结 
点 块 存储 于 同一 块 内 存 或 者 分 开 存储 。 


SRH 





m 
e eae 
Gu- N 
> $ i & 4568 
图 11-25 ”用 叶 结 点 (AE) 表示 数据 和 父 结 点 图 11-26 一 个 叶 结 点 内 存 块 改变 的 
(正方 形 ) 表示 哈 希 值 的 n TERHI 二 叉 内 存 认证 哈 希 树 


11.10 BREDA ee RA 


如 之 前 在 11.4 节 中 讨论 的 一 样 ，SCP 作为 租 入 式 系 统 ， 其 包含 一 个 可 信和 固件 模块 
(TFM)。 因 为 固件 的 指令 和 数据 不 能 从 芯片 外 部 直接 读 取 ，TFM 不 受 欺 骗 、 拼 接 或 者 重 放 
攻击 的 影响 。 然 而 ， 由 于 SCP 必须 要 和 平台 中 其 他 部 分 交换 数据 ， 如 果 攻 击 可 以 控制 平台 
物理 结构 ， 那 么 SCP 也 有 可 能 遭受 物理 攻击 。 例 如 ， 在 从 内 存 访问 SCP 的 任何 数据 都 是 不 
安全 的 。 

所 需 的 加 密 算法 可 以 作为 TFM 的 一 部 分 在 软件 中 实现 ， 但 是 运行 起 来 会 需要 很 多 时 
间 ， 所 以 ， 为 了 提高 效率 ， 加 密 算法 一 般 在 硬件 中 实现 。 图 11-27 展示 了 包含 所 需 模块 最 小 
集 的 SCP 结构 。 其 包括 存储 加 密 根 键 (SRK) 的 非 易 失 存储 器 、 随 机 数 产生 器 和 硬件 中 实现 PDP 
的 加 密 / 解密 哈 希 算法 。 SRK 可 以 是 对 称 密 钥 [53] 或 者 公共 /私有 密 钥 对 中 的 私有 密 钥 [47]。 |507 


非 易 失 性 存储 单元 
( 例如 flash 存 储 器 ) 


( 例如 ， 128 位 对 称 或 者 


2048 位 私有 密 钥 K ) 


oa ( SRH) wr) 


11-27 嵌入 式 系统 中 的 安全 协 处 理 器 


Æ TFM 执行 和 临时 将 密 钥 存储 在 密 钥 链 中 (参见 11.8.2 节 ) 时 ,会 用 到 随机 存 取 存储 
f (RAM). WR TFM 也 管理 被 哈 硕 树 保护 的 密 钥 链 ， 那 么 RAM 也 可 以 用 于 存储 SRH, 
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SCP 的 例子 有 智能 卡 [47] 和 可 信 平 台 模 块 [TPM][47, 52, 58]. Ain, MAREK RAB) 
的 存储 空间 。 


可 信 平 台 模块 


TPM 用 于 提供 整个 平台 的 安全 ; 其 保证 了 硬件 和 操作 系统 软件 部 分 在 启动 时 的 有 效 性 。 
操作 系统 甚至 其 他 应 用 程序 可 以 使 用 API 去 访问 TPM 的 安全 服务 。 

TPM 是 由 被 称 为 行业 代表 的 可 信赖 计算 集团 (TCG) 开发 的 产品 。 许 多 公司 ， 包 括 
AMD, HP, IBM, Intel 和 微软 ， 都 是 TCG 的 成 员 。 图 11-28 Ra SRARAB HF TPM 心 
片 的 框图 。 非 易 失 性 存储 器 用 于 存储 签注 密 钥 (EK), SRK 和 启用 或 禁用 某 些 功能 的 标识 。 
EK 是 一 种 散 入 在 芯片 中 的 密 铀 ， 通 常 由 厂商 写 人 。SRK 用 于 保护 TPM ER. ahh 
证 明 密 钥 (AIK) 是 一 种 由 SRK 生成 的 私有 密 钥 ， 且 有 各 种 用 途 ， 包 括 平 台 认 证 。 


非 易 失 性 存储 平台 配置 寄存 器 身份 认证 密 钥 可 信和 固件 
( EK,SRK 等 ) (PCR) ( AIK ) ( TFM) 
随机 数 SHA-1 执行 引擎 


11-28 TPM 结构 [58] 


随机 数 生成 器 可 以 根据 需要 由 芯片 中 的 热 噪声 [59] 产生 。RSA 引擎 用 于 RSA 的 加 密 和 
解密 。RSA 密 钥 生成 器 用 于 生成 对 称 RSA 密 钥 。SHA-1 引擎 用 于 哈 希 功 能 。 

Opt-In 模块 允许 用 户 根 据 平台 厂商 的 私有 指导 选择 in 或 者 选择 outo WÈ opt-in 机 制 有 
效 ， 用 户 在 使 用 功能 或 者 服务 之 前 会 收 到 提示 。opt-in 机 制 默认 无 效 。 如 果 opt-out 机 制 有 
效 ， 用 户 在 保留 或 禁用 功能 或 者 服务 时 会 收 到 提示 ，opt-out 默认 有 效 。 


11.11 安全 处 理 屡 体系 结构 


SP 可 以 实现 多 核 安全 执行 模式 (SXM) 对 于 给 定 TSM 来 创建 目标 安全 执行 环境 ， 正 如 
11.4 节 中 讨论 的 。SP 可 以 让 软件 工程 师 选 择 程序 的 安全 等 级 ， 如 仅 完 整 性 、 仅 保密 性 ， 或 
者 两 者 都 有 ， 且 不 管 保护 机 制 是 否 用 于 程序 代码 (指令 和 静态 数据 )、 程 序 动态 数据 ， 或 者 
程序 代码 和 数据 [30]。 尽 管 程序 的 静态 数据 不 会 改变 ， 动 态 数据 在 程序 执行 中 生成 ,包括 由 
及 时 编译 器 动态 生成 的 代码 。 


11.11.1 程序 代码 完整 性 


在 代码 完整 性 安全 执行 模式 (CI-SXM) 下 执行 的 程序 (例如 可 信和 软件 模块 、TSM) 可 以 
不 受 欺骗 和 拼接 攻击 。 重 放 攻 击 在 这 里 不 作 讨 论 ， 因 为 程序 代码 (包括 静态 数据 ) 在 程序 执 
行 中 不 会 改变 。 哈 硕 值 用 于 认证 在 执行 过 程 中 指令 和 静态 数据 的 正确 性 。 然 而 ， 因 为 现代 处 
理 融 芯片 包含 高 速 缓存 和 块 中 的 缓存 事物 ， 每 块 (高速 缓存 线 ) 中 的 哈 布 值 是 足够 的 。 

在 内 存 中 程序 代码 块 的 哈 硕 值 有 两 种 组 织 方法 [31, 55]。 一 种 方法 是 在 每 一 块 指 令 和 静 
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SER RARA, WE 11-29 所 示 。 例 如 ,假设 SP 是 32 位 RISC 处 理 器 且 最 低 ( 例 
4 L2 ) cache 线 都 为 64B， 图 中 展示 了 散 入 于 每 一 块 中 的 128 (2 (16B) BAMA A (例如 
HMAC)。 命 名 为 代码 块 的 每 48B 程序 代码 生成 一 个 哈 希 值 ， 其 可 以 包含 12 个 4B 指令 或 者 
静态 数据 字 。 一 块 包 含 64B 内 存 空间 。 








块 地 址 =0 块 地 址 =1 
48B 16B 48B 16B 
指令 /静态 数据 指令 /静态 数据 ee 
代码 块 0 哈 希 0 代码 块 1 哈 希 1 
块 0 块 1 


图 11-29 ”嵌入 哈 希 值 的 程序 块 ， 假 设 每 块 大 小 为 64B[55] 


加 载 进 cache 中 的 每 个 代码 块 必须 通过 骨 入 哈 希 的 每 一 块 哈 希 计算 和 比较 来 认证 。 如 果 
两 个 哈 希 值 匹 配 ， 则 块 被 认为 是 合法 的 且 在 块 存 人 cache 之 前 哈 希 字 节 变 为 NOP (无 操作 ) 
指令 。 男 一 方面 ， 如 果 两 个 哈 希 值 不 匹配 ， 则 块 将 会 在 cache 中 被 标记 为 非法 的 ， 且 会 抛 出 
异常 来 终止 程序 的 运行 。 
此 外 ， 哈 硕 值 也 可 以 被 分 离 存 储 不 能 和 人 在 块 中 。 一 种 方法 是 建立 72 ECC (错误 校正 
码 ) 同步 动态 随机 存储 器 ( SDRAM) 模块 。 在 这 种 情况 下 ，72 位 内 存 空间 由 64 位 程序 代码 
和 在 8 位 ECC[31] 中 的 8 位 哈 希 值 组 成 。 然 而 SP 需要 使 用 拥有 128B cache 线 的 最 低级 
cache。 二 进 制程 序 将 被 分 为 128B 大 小 的 块 ， 每 块 有 16 72 位 ， 64 位 8 位 
个 大 小 为 64 位 的 页 。 每 128B 大 小 的 块 产生 一 个 128 位 
(或 16B) 密 钥 哈 希 值 ， 且 在 每 块 预 留 的 16 ECC 域 中 存储 
为 16 个 8 位 哈 希 值 ， 如 图 11-30 所 示 。 当 cache 未 命中 ， 
16 个 72 位 内 存 页 从 内 存 传输 至 SP 中 。 每 一 个 72 位 内 存 
页 包含 64 位 程序 代码 和 16 个 8 位 哈 希 值 中 的 一 个 。 如 果 
SP 计算 生成 的 16B 哈 希 值 与 内 存 中 读 取 的 16B 哈 希 值 匹 
Ac, cache 线 将 被 标记 为 合法 的 。16B 哈 希 值 不 会 存储 在 
cache 中 。 虽 然 16B 哈 希 值 不 能 用 于 错误 校 验 ， 但 是 它 可 图 11-30 用 ECC SDRAM 设计 的 





以 用 于 检测 多 位 错误 。 内 存 中 程序 指令 和 静态 
程序 编译 数据 块 ; 哈 希 值 存储 在 
之 前 我 们 讨论 过 对 于 代码 完整 性 的 两 种 不 同 的 内 存 为 ECC 位 预 留 的 空间 中 


块 结构 。 考 虑 如 图 11-29 所 示 的 块 结构 ， 其 哈 希 值 庶 和 在 每 一 块 中 。 在 这 种 情况 下 ， 每 个 内 
存 块 只 包含 部 分 指令 或 者 数据 。 这 样 在 计算 跳 转 /分 支 地 址 时 ， 编 译 器 需要 考虑 哈 希 字 节 的 
位 置 。 
11.11.2 ”运行 安全 机 制 

SXM 程序 的 二 进 制 代码 不 仅 需要 安全 地 发 布 和 安装 ， 在 执行 过 程 中 也 需要 安全 地 装载 
进 内 存 中 。 安 装 和 装载 程序 必须 遵循 参考 文献 [55, 60, 61] 中 概述 的 过 程 类 似 的 一 组 流程 。 


在 接 下 来 的 小 节 中 ， 我们 将 讨论 一 系列 对 于 软件 发 布 和 安装 的 安全 机 制 ， 例 如 装载 位 二 进 制 
代码 到 内 存 中 执行 。 
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1. 二 进 制 代 码 安 全 发 布 

如 果 开 发 TSM 用 于 公共 发 布 ， 二 进 制 纯 文 本 程序 代码 (binarypx) 需要 计算 其 哈 希 值 以 
防 程序 中 发 生 无 授权 变更 。 二 进 制 文件 的 哈 希 值 用 私有 密 钥 ( PRoompany) 来 产生 头 记 录 。 记 
录 将 会 被 附 于 二 进 制 文件 中 以 安全 传送 。 公 共 发 布 的 示例 将 会 在 稍 后 举例 ， 用 Easym 来 表示 
对 称 密码 (如 RSA)，H 表示 (标准 ) 哈 硕 算法 ， 例 如 SHA-256,“PU ”表示 公共 密 钥 。 


//binary package includes both header and program binary 
General distribution: {header,,,.,,,, binary,,,.}i 


//secret header record for code integrity 


header ar 二 Basm (PReompany: {H(binary,,,,.), "SHA-256"}) ; 

使 用 设备 的 公共 密 钥 (PU) 可 以 将 二 进 制 代码 传输 到 特殊 设备 中 ， 如 下 : 
headeravice = Bem (PUsevica? {H (binarY txt) , "SHA-256"}); 

Target device distribution: {header,,,,.., binary,,,.}i 


对 于 特殊 设备 传送 ， 头 记录 只 能 由 使 用 其 私有 密 钥 ( PRaevice) 的 设备 加 密 ; 程序 只 能 在 
目标 设备 中 执行 。 

2. 程序 安全 安装 

对 于 TSM 的 安全 安装 ， 安 装 程序 需要 访问 SP 的 SRK， 且 可 能 需要 由 安装 程序 的 授权 
Ti (一 个 人 ) 提供 的 密码 [61]。 安 装 程序 在 安装 过 程 中 在 SP 中 生成 特定 程序 的 签名 密 钥 〈 例 
如 Keym-pro-sign) 且 用 其 来 计算 程序 代码 块 的 哈 希 值 。 

安全 安装 程序 的 一 种 方法 是 用 TFM 安装 程序 来 保证 安装 程序 免 受 攻击 。 在 这 种 情况 
下 ， 安 装 程序 输入 参数 ， 例 如 TSM 二 进 制 安装 文件 的 大 小 、 在 内 存 中 的 位 置 和 在 固件 可 以 
安装 程序 之 前 由 操作 系统 存储 的 安装 密 钥 信息 (例如 PU company ) o 

图 11-31 展示 了 用 如 图 11-29 所 示 的 块 组 织 的 CI-SXM 程序 的 安装 步骤 。 每 个 的 代码 块 
哈 希 值 存储 在 用 于 建立 程序 块 的 代码 块 中 。 


安全 SI-SXM 程 序 安装 


SP 中 生成 的 
未 安装 的 二 进 制 代码 签名 密 钥 SRK 已 安装 的 二 进 制 代码 


Ksym-prog-sign 










| E(SRK, Ksym-prog- | i 
: sign) ' 


‘ 
' 

: - 
-=-===e==e=ne==ee=neeooooenn 


11-31 完整 SXM 程序 代码 的 安全 安装 [30] 
在 执行 过 程 中 ， 每 个 代码 块 的 哈 希 值 将 会 检测 到 欺骗 攻击 。 然 而 ,为 了 使 得 代码 块 哈 
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希 值 也 能 检测 到 拼接 攻击 ， 每 块 的 起 始 地 址 ， 在 这 里 也 称 为 块 地 址 ， 也 用 于 每 块 哈 硕 值 的 计 
算 。 在 安装 程序 生成 的 签名 密 钥 Koym-prog-sign (Pi) GN REPL) 用 二 进 制 文件 存储 (在 硬盘 中 ) 之 
前 ， 其 也 用 SRK 处 理 器 进行 加 密 ， 如 图 所 示 。 以 下 将 简单 介绍 如 图 11-29 块 组 织 结构 CI- 
SXM HEFER R, EXE, Heya 也 表示 密 钥 哈 希 值 ，code_block 表示 程序 代码 (指令 
和 静态 数据 ) 第 clock; 部 分 ，n 为 代码 块 数 量 ，HV 表示 哈 希 值 。 

CI-SXM 安装 程序 步骤 : 


blocket- = {code block -iv HV,}; //do this for all blocks, 
//assume organization in Figure 11.29 
//compute hash to detect spoofing and splicing attacks 


HV, = Hd (Keym-prog-sign’ {Ccode_block,,,..,, block_address, }) ; 
binary, saiea = {"COde integrity, HMAC-128", E(SRK, Kprog-aign)’ 
{{ block F for j = 0 to n -1}}; 


ptxt-j 


3. 安全 装载 可 执行 二 进 制 代码 

在 程序 能 够 执行 之 前 ， 为 了 加 密 安装 程序 生成 的 签名 密 钥 Ksymprog-sign 及 将 其 存储 在 SP 
的 特殊 寄存 器 中 ， 装 载 程序 必须 有 访问 SP 中 SRK 的 权限 。 就 像 安装 程序 一 样 ， 基 本 装载 程 
序 也 是 TFEM。 安 装 程序 和 装载 程序 固件 都 必须 不 泄露 处 理 器 机 密 。 由 操作 系统 访问 和 存储 
内 存 中 的 装载 输入 参数 ， 这 样 在 TSM 能 够 启动 执行 之 前 ， 装 载 程序 就 可 以 提取 签名 密 钥 。 

根据 TSM 的 保护 级 别 ， 装 载 程序 可 能 需要 在 程序 开始 执行 之 前 执行 附加 的 初始 化 步 
又 ， 将 稍 后 讨论 这 些 步 又 。 


11.11.3 ”程序 代码 保密 性 


TSM 在 代码 (指令 和 静态 数据 ) 保密 安全 执行 下 的 编译 执行 模式 (CC-SXM) 必须 在 硬 
盘 和 内 存 中 给 予 保密 。 然 而 ， 对 于 指令 和 静态 数据 完整 性 的 保护 ， 则 不 需要 在 此 模式 下 进 
行 ; 因此 也 不 需要 哈 硕 值 计算 。 安 装 固件 (参见 11.11.2 节 ) 生成 了 一 个 加 密 对 称 密 钥 Key. 
prog-enc 来 对 程序 代码 模块 进行 独立 加 密 。 此 外 ， 为 了 阻止 信息 泄露 ， 块 地 址 需要 包含 在 块 加 
密 中 ， 以 防 两 个 块 拥 有 相同 的 内 容 。 下 列 将 展示 如 何 用 块 地 址 来 为 对 称 密 钥 密 码 (Ey) 建 
立 一 个 IV， 如 AES, 

为 CC-SXM 安装 程序 步骤 : 


IV, = {block_address,, 00...0}; //IV is padded with 0 to make up, 


//for example, a 128-bit IV for 128-bit AES 


block... .-; = 5 $ ania cana? IV;, block, 4-5) i 


binary, stalleg = { “code confidentiality, AES-128”, E(SRK, ne T 
{{block,,,,.,} for j = 0 to n -1}}; 


11.11.4 程序 代码 的 完整 性 和 保密 性 

CICC-SXM 这 种 安全 执行 模式 ， 实 现 了 对 TSM 代码 (指令 和 静态 数据 ) 的 完整 性 和 保 
密 性 的 保护 。 这 就 是 先前 讨论 的 CI-SXM 和 CC-SXM HAA. 

为 CICC-SXM 安装 程序 的 步骤 : 


IV, = {block_address,, 00...0}; //create a unique Iv for each block 


//encrypt each block 


//The following two steps may be combined using AES-CBC-MAC 
code block yi = Esym (K 
//code block 

BY, = Bea i {code_block 
//each code block 


nnn Ty, Code block eweg y //encrypt 


block_address,}) ; //hash 


ctxt-j/ 
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block = {code block HV, } ; //combine to create 
//blocks as in Figure 
//11.29 
= {“code integrity and confidentiality, 
AES-CBC-MAC”, E (SRK, K F E (SRK, 


sym-prog-enc 
K ), {{block 


etxt-j etxt-j" 


binary, nstalled 


i gti ey for j = 0 ton-1}}; 


11.115 ”程序 数据 完整 性 


动态 数据 在 程序 执行 过 程 中 生成 ， 且 相对 于 静态 数据 ， 动 态 数据 在 内 存 中 的 值 会 改变 。 
在 数据 完整 安全 执行 模式 ( DI-SXM) 下 编译 执行 的 TSM 必须 防止 受到 重 放 攻 击 和 欺骗 、 拼 
接 攻 击 。 此 前 讨论 过 ， 重 放 攻 击 可 以 用 一 个 旧 值 代替 甚至 更 新 在 内 存 中 的 值 。 就 像 在 CI- 
SXM 中 讨论 的 一 样 ， 单 独 为 每 一 块 计算 的 哈 希 值 将 不 能 检测 到 重 放 攻 击 。 哈 布 树 需 要 对 数据 
块 检测 重 放 攻击 。 图 11-32 展示 了 数据 块 的 二 又 哈 希 树 ， 叶 结 点 表示 数据 块 ， 父 结 扣 表示 哈 
希 块 。 假 设 每 块 大 小 都 为 32B 且 每 个 父 结 点 块 都 有 两 个 128 位 从 其 子 结 点 计算 得 出 的 哈 布 值 。 


SRH 








ES。 

局 块 7 状态 

动态 数据 块 | 动态 数据 块 | 动态 数据 块 动态 数据 块 动态 数据 块 | 动态 数据 块 | 动态 数据 块 | 动态 数据 块 
8 9 10 11 ; 15 


12 13 rad 






11-32 ”动态 数据 块 中 更 新 哈 希 树 过 程 展示 ; 数字 为 块 地 址 


在 这 种 情况 下 ， 装 载 固 件 (参见 11.11.2 节 ) 生成 一 个 会 话 签名 密 钥 (例如 Keym-session-sion) H 
Æ TSM 用 DI-SXM 模式 执行 之 前 用 此 密 钥 来 创建 一 个 初始 哈 希 树 。 图 中 也 阐释 了 内 存 中 树 的 
结构 。 在 每 块 下 的 数字 为 块 地 址 。 叶 结 点 块 在 内 存 中 的 高 地 址 部 分 ， 而 父 结 点 块 在 低地 址 部 
分 。 块 1 MAA ORR) 被 作为 安全 根 哈 希 值 (SRH) 存储 在 SP 中 ; 注意 块 0 没有 被 用 到 。 

理论 上 说 ， 每 一 次 被 修改 的 块 被 最 低级 的 cache 释放 且 离 开 SP 安全 边界 的 时 候 ， 一 个 
新 的 SRH 将 会 被 计算 。 这 就 要 求 在 从 被 释放 的 块 到 根 块 路 径 中 的 父 结 点 块 更 新 ， 如 图 11-26 
所 示 。 然 而 ， 在 实践 中 ， 因 为 cache 的 内 存在 SP 中 且 被 认为 是 安全 的 ， 一 旦 在 从 叶 节 点 块 
到 SRH 路 径 上 的 父 结 点 块 在 cache 中 被 找到 ， 父 结 点 块 的 更 新 就 可 以 停止 。 

例如 ， 假 设 叶 结 点 块 14 和 其 父 结 点 块 17 都 在 cache 中 ， 块 14 被 更 新 ， 在 图 中 标记 为 
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14’”。 现 在 假设 块 在 时 间 点 t0, 块 14’ 从 cache 中 释放 (用 向 下 箭头 表示 )。 因 为 块 7 存储 在 
cache 中 上 且 合 法 ， 存 储 在 块 7 中 的 块 14 ( 哈 希 值 14 ) 将 会 在 时 间 点 tl 被 替换 为 新 计算 出 的 哈 
希 值 14:。 这 里 不 需要 继续 更 新 父 结 点 块 3、 块 1 和 SRH。 下 一 次 块 14: 从 内 存 中 取出 并 在 
cache 中 装载 时 ， 假 设 块 7 依旧 在 cache F, 则 其 值 依旧 为 哈 希 14: ， 且 为 最 新 的 哈 硕 值 14?。 

现在 ， 假 设 块 15 从 内 存 中 装载 进来 且 块 7 仍然 在 cache 中 。 哈 希 值 15 必须 与 存储 在 
RT 中 的 哈 希 值 比较 。 因 为 哈 希 值 15 最 初 是 由 块 15 中 的 数据 计算 而 得 ， 还 一 直 保 存在 块 
TP, WRH 15 的 哈 硕 值 与 哈 希 值 15 相 匹配 ， 则 认为 块 15 是 合法 的 。 同 理 ， 块 7 的 父 节 
点 块 块 3， 当 块 T 被 从 cache 中 释放 时 进行 更 新 ; 块 1 在 块 3 从 cache 中 释放 时 进行 更 新 ; 
H SRH 在 块 1 从 cache 中 释放 时 进行 更 新 。 这 样 的 处 理 减 少 了 维持 哈 硕 树 的 开销 ， 这 将 在 
11.12 节 中 详细 讨论 。 | 

如 果 动 态 数据 空间 在 程序 中 被 事先 声明 且 其 空间 被 提前 装载 至 物理 空间 中 ， 图 11-32 中 
的 树 结构 就 会 建立 起 来 。 男 一 方面 ， 为 了 在 程序 执行 过 程 中 动态 分 配 内 存 空间 ， 会 用 到 一 种 
不 同 的 页 机 制 (也 可 以 参见 第 9 章 )。 在 此 处 ， 哈 希 树 是 一 棵 虚拟 树 且 其 结 点 是 虚拟 地 址 空 
间 的 块 结 构 。 组 建 此 哈 希 树 的 一 种 方法 是 建立 只 含有 根 结 点 页 和 叶 结 点 页 的 两 层 哈 希 树 。 每 
一 页 中 包含 若干 块 。 例 如 ，4KB 大 小 的 页 可 以 包含 编号 为 1 ~ 64 的 64B 大 小 的 块 。 这 样 的 
哈 硕 树 可 以 用 以 下 步骤 建立 [30]: 

1 ) 在 每 个 叶 结 点 页 中 用 肯 入 哈 硕 值 的 方法 组 织 动态 数据 块 ， 如 图 11-29 所 示 。 例 如 ， 
假设 每 个 哈 希 值 都 为 16B， 每 64B 动态 数据 块 包含 48B 数据 和 16B 哈 布 值 。 一 个 4KB 的 叶 
结 点 页 包含 3072B (48B * 64) 动态 数据 和 1024B (16B * 64) RAE. 

2) 计算 每 个 叶 结 点 页 所 有 退 入 哈 硕 值 的 校 验 和 (用 按 位 异 或 逻辑 ) 并 将 其 存 人 根 结 点 
页 的 块 中 。4KB 根 结 点 页 最 多 可 以 存储 256 个 在 64 块 中 的 16B 校 验 和 一 一 每 块 中 有 4 个 
16B 哈 希 值 。 此 外 ， 根 结 点 页 可 以 保存 :1 ~ 256 叶 结 点 页 的 校 验 和 。 

3) 计算 所 有 在 根 结 点 页 中 的 校 验 和 的 累计 校 验 和 (再 次 用 按 位 异 或 逻辑 ) 并 将 它们 作 
为 SRH FA SP 中 。 

如 有 需要 ， 更 多 的 叶 结 点 和 根 节 结 页 将 会 动态 地 加 载 。 虚 拟 哈 希 树 也 能 保护 整合 回 硬盘 
中 的 叶 结 点 页 和 根 结 点 页 。 如 果 硬 盘 中 的 页 发 生 了 一 个 未 授权 的 改变 ， 下 次 当 被 改变 的 页 重 
新 存储 至 内 存 中 且 此 页 中 的 块 被 SP 访问 时 ， 这 个 改变 将 会 被 检测 到 。 

因为 每 一 个 装载 进 cache 中 的 数据 块 完 整 性 必须 被 确认 ， 安 全 装载 固件 (之 前 讨论 过 ) 
必须 为 这 些 预 装载 来 执行 程序 的 块 建立 一 个 初始 哈 希 树 。 


11.11.6 ”程序 数据 保密 性 


DC-SXM 和 CC-SXM 类 似 ， 除 了 由 于 在 程序 执行 过 程 中 在 内 存 中 的 数据 块 发 生 的 改变 
会 被 攻击 者 找 出 ， 例 如 ， 内 存 中 的 数据 块 在 不 同 的 时 间 会 有 相同 的 值 。 为 了 预防 这 样 的 信息 
泄露 ， 我 们 需要 对 数据 块 进行 随机 化 加 密 [33]。 每 当 cache 中 改变 的 数据 块 被 驱逐 ， 除 了 块 
地 址 ， 唯 一 的 由 装载 器 生成 的 会 话 加 密 密 钥 ( Keym-session-enc) 也 被 用 来 加 密 数据 块 。 装 载 器 固 
件 也 用 于 在 TSM 程序 执行 之 前 对 任何 装载 后 的 数据 块 进行 初始 的 随机 加 密 。 与 其 他 密 钥 相 
似 ， 会 话 密 钥 在 SP 中 安全 保存 。 

在 这 种 情况 下 ， 即 使 随 着 时 间 变 化 块 内容 保 持 不 变 ， 但 是 块 的 加 密 备 份 仍然 会 改变 。 而 
且 ， 因 为 动态 数据 是 在 执行 过 程 中 生成 的 ， 大 多 数 分 配给 每 一 数据 块 的 唯一 数字 存储 在 内 存 中 
且 下 一 次 将 会 访问 从 内 存 装载 的 加 密 块 。 对 于 随机 加 密 ， 有 两 种 生成 唯一 数据 块 数字 的 方法 : 
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1) 随机 序列 。 数 据 块 的 随机 数 序 列 是 随机 生成 的 。 下 面 展示 了 一 用 随机 序列 对 数据 块 
data_block 随机 加 密 的 过 程 。RN 代表 被 分 配给 data_block 的 随机 数 ， 表示 用 于 存储 RN; 
的 内 存 位 置 。 密 码 的 IV( 如 AES) 是 用 块 地 址 和 分 配给 其 唯一 随机 序列 生成 的 。IV = {block_ 
address, RN} 可 能 用 0 来 填充 去 生成 加 密 IV 正确 的 大 小 。 每 次 cache 未 命中 data_block 时 ， 
其 当前 的 RN， 存储 在 Y 位 置 中 ， 被 读 取出 来 生成 IV 来 对 块 加 密 。 每 当 块 (不管 改变 与 否 ) 
被 cache 丢弃 ， 将 会 生成 新 的 RN。 因 此， 在 装载 器 进行 初始 化 过 程 中 并 没有 必要 对 每 块 都 
用 到 初始 的 RN (例如 RN0 )。 然 而 ， 用 初始 RN 将 会 化 简 处 理 器 的 结构 。 


//Initialization by loader; RNO, is saved at memory 
//location Y, 


data_block,,,..; = E(Kyyn-session-enc’ {Dlock_address,, RNO,}, 
data_block,,...,})i 

516 //1st time evicted from cache, save RN1j at location Y, 
data blook se. = E(E ys. ant {block_address,, RN1,}, 
data_block,....5}) i 


//2nd time evicted from cache, save RN2 
” data_block = E(K 
data_block DE 


//3rd time evicted from cache, save RN3, at location Y, 
data block = E(K {block_address,, RN3,}, 
data_block p; 


etc. i 
必须 保证 分 配给 每 块 的 随机 数 是 唯一 的 ; 但 是 事先 我 们 没有 办 法 来 保证 这 一 点 ， 所 以 在 
菏 些 情况 下 ， 对 于 某 些 块 来 说 随机 数 并 不 是 唯一 的 。 例 如 ， 用 32 位 的 短 整数 来 表示 随机 数 ， 
如 有 果 给 定 的 块 被 访问 很 多 次 ， 那 么 生成 重复 的 随机 数 的 几率 就 会 增高 。 另 一 方面 ， 尽 管 对 每 
块 用 大 随机 数 或 许可 以 降低 重复 的 概率 ， 但 是 会 用 到 更 多 的 内 存 空 间 来 存储 大 随机 数 。 

2) 中 序 序列 。 一 系列 的 不 重复 的 数字 是 为 每 块 按 序 列 生 成 的 ， 例 如 0、1、2 等 。 下 列 
展示 了 用 中 序 序列 对 data_block 随机 加 密 的 过 程 ， 假 设 初 始 中 序 值 为 0， 由 装载 器 分 配 且 存 
fat Y 的 内 存 位 置 中 。 


//Initialization by loader; 0 is assigned and saved at 
//location Y, 

block_block 
data_block 


//18* time evicted from cache; ¥y.+ 2 = 17 1 is saved at 
//location Y} 
block block 
data_block 


//2nd time evicted from cache; Y 
//location Y; 

block_block 
data_block 
//3rd time evicted from cache; ¥, +1 = 3y 3 is saved at 
//location Yj 

block_block 
data_block 


etc. 
尽管 用 中 序 序列 可 以 保证 当 块 被 cache 丢弃 时 分 配给 每 块 的 数值 是 唯一 的 ， 但 我 们 必须 
保证 在 程序 执行 过 程 中 每 个 序列 不 会 被 用 尽 。 例 如 ， 如 果 内 存 中 一 个 动态 数据 项 每 100ns 更 
新 一 次 ， 那 么 在 429 (2°*100ns/10’ns) 秒 或 大 约 7.16 分 钟 内 32 位 的 中 序 序列 值 (例如 0, 2, 


j at location Y} 


rere eee wen {block_address,, RN2,}, 


ptxt-j 


ctxt-j sym-session-enc’ 


ptxt-j 


petal = E CRC cen ni ait 


{block_address,, 0}, 


ptxt-j 


= E(K {block_address,, 1}, 


mee, sym-session-enc’ 
ptxt-j 


F + 1 = 2; 2 is saved at 


= E(K {block_address,, © -IP 


sgh sym-session-enc’ 


ptxt-j 


= E(K 


sym-session-enc’ 


cent {block_address,, 3}, 


ptxt-j 
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3, 27-1) 会 溢出 。 如 果 用 64 位 中 序 序列 ， 则 会 每 58.5K 年 溢出 一 次 。 然 而 ， 与 大 随机 
数 相似 ， 大 中 序 序 列 数 序列 也 会 占用 更 多 的 内 存 空 间 。 

通常 有 两 个 方法 来 缩小 中 序 序 列 所 占 的 存储 空间 

1 ) 用 短 中 序 序列 。 在 此 情况 下 ， 每 次 在 程序 执行 过 程 中 ， 一 块 的 中 序 序列 值 发 生 溢出 
时 ，SP 将 停止 程序 的 执行 ， 在 程序 可 以 重新 执行 之 前 生成 一 个 新 的 会 话 密 钥 ( Keym-session-enc ) 
且 用 新 密 钥 和 在 序列 中 的 初始 唯一 值 (例如 0 ) 对 所 有 数据 块 进 行 加 密 [30, 33]。 然 而 ， 如 果 
这 种 机 制 用 于 操作 数据 块 大 数 的 TSM 上 ， 对 所 有 数据 块 重新 加 密 所 需 的 时 间 可 能 会 非常 长 。 

2) 用 切片 中 序 序列 。 在 这 种 情况 下 ， 块 将 组 织 成 小 组 ， 例 如 ， 每 组 有 256 块 。16 位 中 
序 唯 一 数值 被 分 配给 每 块 且 一 个 更 长 的 (例如 48 位 ) 中 序 唯一 数值 将 会 在 一 组 数据 块 中 共 
享 [62]。 为 了 实现 小 组 中 每 一 块 的 随机 加 密 ， 小 组 共享 的 48 位 唯一 数值 和 块 中 16 位 私有 的 
唯一 数值 串联 起 来 形成 了 块 的 64 位 中 序 唯 一 数值 。 然 而 ， 每 当 小 组 中 的 短 序列 溢出 时 ， 对 
应 的 共享 48 位 唯一 数值 将 会 增加 ， 小 组 中 的 私有 短 中 序 序列 将 会 重新 初始 化 ， 且 小 组 中 所 
有 的 块 将 会 重新 加 密 。 因 为 不 需要 新 的 会 话 密 钥 且 小 组 中 的 块 数目 是 相对 于 TSM 中 的 数据 
块 数目 来 说 比较 少 ， 用 切片 中 序 序列 ， 对 于 小 组 中 的 块 ， 用 于 重新 加 密 的 总 时 间 比 第 一 种 
方法 要 少 。 以 下 代码 中 ,用 data_block,, ; 来 表示 小 组 i 中 的 数据 块 j。 每 次 当 data_block; ;被 
cache 丢弃 ， 其 被 分 配 的 16 位 私有 唯一 数值 就 会 增加 ， 当 经 历 了 65 536 次 丢弃 之 后 ， 块 共 
享 的 48 位 唯一 数值 会 增加 且 将 16 位 私有 唯一 数值 重新 初始 化 (例如 0) 来 对 组 i 中 的 所 有 
(256) 块 进行 加 密 。 假 设 装载 器 存储 了 初始 的 48 位 唯一 数值 (例如 0 ) 分 配给 组 i， 存 储 于 
内 存 中 的 浆 位 置 中 且 初 始 短 和 有 16 位 唯一 数值 (例如 0 ) 分 配给 data_blck; ;存储 在 中 ， 
下 列 展 示 了 用 切片 中 序 序列 对 data_block; ; 加密 的 过 程 : 


//Initialization by the loader; X, = 0; Y, = 0， 
block_block,,,..5.; = E(K {block_address,, 0, 


sym-session-enc’ 
0}, data_bloCKk txt-i,j 


//lst time evicted from cache; X, = 0; ¥, +1= 1; save 1 


/ /at Y; 


block block, txt-i,j 
1}, data_block,,..-; j 

//2nd time evicted from cache; X, = 0; Y, +1 = 2; save 2 
/ /at Y, 
block_block..,.-4,, 
2}, data_block 


ptxt-i,j 


= E(K 


sym-session-enc’ 


{block_address,, 0, 


= E(K 


sym-session-enc’ 


{block_address,, 0, 
//3rd time evicted from cache; Xi = 0; Yi +1 = 3; save 3 
Ifat Y, 

block block = E(K 


ctxt-i,j sym-session-enc’ 


3}, data_block,..., 5} 


{block_address,, 0, 
//65535th time evicted from cache; X, = 0; Y, +1 =65535; 
//save 65535 at Y; 
block_block,,,._ 


65535, data_block,,,.., jj 


= E(K 


sym-session-enc’ 


{block address 0, 


j， 

//65536th time evicted from cache; X, + 1 = 1; Y, = 0; 1 

//is saved at X,; 0 is saved at Y 

//A firmware in SP encrypts all the blocks in group i and 

//then resumes program execution 

for(j = 0; j < number of blocks in group i; j++) 
block_block,,,..5,; = E(K {block_address,, 


sym-session-enc’ 
1, 0}, data block reig) 


分 配给 最 相关 块 的 唯一 数值 或 许 会 被 存储 在 SP 中 一 个 特殊 的 cache 中 ， 以 提高 性 能 。 
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所 有 (方法 1 ) RARE (方法 2) 块 的 重新 加 密 任务 由 TSM Ab Bh ae ah oP ee TB E, 
如 果 TSM 中 断 了 ， 其 对 应 的 重新 加 密 任 务 将 会 停止 ， 且 将 会 在 TSM 重新 启动 时 重新 执行 。 


11.11.7 ”程序 数据 的 完整 性 和 保密 性 


在 DIDC-SXM 中 ， 每 个 动态 数据 块 必 须 被 加 密 ， 就 像 在 DC-SXM 中 一 样 ， 且 必须 被 哈 
希 且 必须 包括 一 棵 哈 希 树 ， 就 像 在 DC-SXM 中 一 样 。 此 外 为 了 保护 每 一 个 数据 块 的 完整 性 ， 
每 块 必须 被 分 配给 唯一 的 数值 ， 用 来 实现 随机 加 密 过 程 ， 这 个 过 程 也 需 被 保护 。 然 而 ， 实 验 
证 明 不 是 每 一 个 数据 块 都 需要 维护 一 棵 哈 希 树 ， 且 另 一 棵 哈 希 树 可 以 被 分 配给 一 个 唯一 数值 
来 检测 重 放 攻 击 [63, 64]。 唯 一 数值 单独 的 哈 希 树 ， 比 数据 块 的 哈 希 树 要 小 一 些 ， 对 于 检测 
重 放 攻 击 更 有 效 。 此 外 ， 唯 一 数值 不 需要 加 密 [65]。 数 据 块 仍然 被 哈 希 ， 如 下 列 展示 ,但 是 
不 需要 为 了 数据 块 维护 一 棵 如 图 11-32 中 的 哈 希 树 。 每 个 数据 块 的 哈 希 值 或 许可 以 被 舱 入 到 
每 块 中 或 者 单独 存储 ， 如 图 11-29 和 图 11-30 中 的 代码 块 所 示 。 

图 11-33 展示 了 有 通信 哈 希 值 的 动态 数据 块 的 组 织 结构 和 数据 块 分 配 唯 一 数值 的 对 应 哈 
希 树 。 在 图 中 ， 每 块 假设 为 64B 且 包 含 一 个 48B 的 数据 块 昌 16B (128 位 ) 的 哈 希 值 。 假 设 
每 个 动态 数据 块 有 长 (64 位 ) 唯一 数值 ，8 个 这 样 的 数值 可 以 存储 在 每 个 64B cache 块 中 (8 = 
64B/64bit) 。 


块 地 址 =0 Block-address = 1 





48B 16B 48B 16B 
BB cso 数据 on ， as 
pee 
动态 数据 块 0 动态 数据 块 1 
a ) 动态 数据 块 组 织 
SRH 
/N 
Wav. 
P A 
ue is 






= 
唯一 数值 块 | 唯一 数值 块 | 唯一 数值 块 | 唯一 数值 块 | ... 


一 一 卢 哈 希 密 钥 
b ) 动态 数据 为 唯一 数值 的 哈 希 树 


11-33 ”保护 动态 数据 : a) 肉 入 哈 希 值 的 动态 数据 块 ; b) 动态 数据 块 唯一 数值 的 哈 希 树 


图 11-34 展示 了 用 如 图 11-33 所 示 的 数据 块 组 织 和 分 配给 每 块 的 任意 唯一 数值 的 复杂 重 
放 攻 击 。 攻 击 重 放 了 cache k (数据 和 骨 入 哈 希 ) 和 分 配给 它 的 唯一 数值 。 攻 击 在 时 间 t2 用 
在 时 间 tl 生成 的 旧 副 本 替换 了 块 1 和 分 配给 它 的 唯一 数值 23。 然 而 ， 因 为 唯一 数值 的 哈 希 
树 将 会 在 时 间 t2 检测 到 17 是 一 个 非法 的 数值 ， 执 行 过 程 将 会 停止 ， 防 止 攻击 实现 其 目标 。 


11.118 程序 代码 和 数据 的 完整 性 及 保密 性 


CICC-SXM 和 DIDC-SXM 组 合 提 供 了 最 大 的 程序 保护 。 这 个 组 合 执行 模式 需要 4 个 密 
钥 ， 分 别 是 由 安装 器 固件 生成 的 Km osene 和 Keym-prog-signs 由 装载 器 固件 生成 的 Keym-session-enc 
和 Keym-sessionsign (11.11.2 节 )。 前 面 两 个 秘 钥 用 于 对 程序 代码 块 (包括 静态 数据 ) 加 密 和 哈 希 。 
后 两 个 密 钥 用 于 对 程序 数据 块 的 加 密 和 哈 希 、 对 分 配 用 于 数据 块 动态 加 密 唯一 数值 的 数据 块 
的 哈 希 树 进行 维护 。 这 就 需要 两 种 块 必须 可 分 辨 以 便于 SP 在 执行 过 程 中 可 以 对 不 同类 型 的 
块 使 用 不 同 的 密 钥 。 以 下 是 两 种 可 能 的 解决 方案 : 





在 时 间 t1 重 放 在 时 间 t2 重 放 
攻击 之 前 的 块 攻击 之 前 的 块 
时 间 t1 时 重 放 攻击 时 间 t2 时 重 放 攻 击 
之 前 的 块 唯一 数值 之 前 的 块 唯一 数值 
次 | 5 | -下 | 2 
1 > 人 
kiii RISN: 
— ss 
see DE 
m RASN| O a5 ed 
MR @ w ae) | O2 
a) 时 间 t1 和 时 间 t2 时 的 数据 块 b) 时 间 t1 和 时 间 t2 时 的 块 唯一 数值 


11-34 ” 块 的 重 放 攻 击 和 其 序列 数值 的 展示 


1 ) 物理 内 存 结构 。 一 种 选择 是 将 主 (物理 ) 存储 空间 进行 切片 成 两 个 区 域 : 一 个 没有 
SXM, 包括 DMA 访问 区 域 和 一 个 SXM 区 域 ， 还 包含 一 棵 哈 希 树 区 域 。 然 而 这 个 选择 需要 
一 个 安全 的 内 核 (操作 系统 的 一 部 分 ) 或 者 一 个 由 受信 任 程序 生成 的 DMA 转换 。 

如 果 为 代码 和 数据 预 留 SKM 内 存 空间 被 分 割 成 代码 和 数据 区 域 ， 这 样 如 果 地 址 代表 代 
码 区 域 (第 8 章 图 8-5), SP 会 用 程序 密 钥 来 解密 且 验 证 传人 的 cache 块 。 男 一 方面 ， 如 果 
内 存 地 址 代表 一 个 数据 块 ，SP 会 用 会 话 密 钥 来 解密 且 验 证 传人 的 cache H, 

另 一 方面 ， 如 果 SXM 虚拟 页 映射 到 预 留 的 SXM 内 存 空间 的 任意 位 置 ( 哈 希 树 区 域 之 
Sh) 且 用 到 了 额外 的 SXM 数据 块 的 随机 加 密 ， 则 数字 0 可 能 会 被 分 配给 每 一 个 代码 块 且 非 
0 唯一 数值 分 配给 每 一 个 数据 块 [33]。 每 次 当 最 底层 cache 缺失 时 ， 如 果 块 唯一 数值 为 0， 
则 这 个 块 就 被 认为 是 一 个 代码 块 ， 且 程序 密 钥 将 会 用 与 解密 和 验证 块 ; 而 如 果 唯 一 数值 非 0， 
则 代表 一 个 数据 块 ，SP 则 用 会 话 密 钥 来 解密 和 验证 块 。 如 之 前 提 到 的 ，0 和 非 0 唯一 数值 不 
需要 解密 。 然 而 ， 哈 希 树 会 用 于 验证 0 和 非 0 的 分 配 数 值 。 

2) 虚拟 内 存 结构 。 另 外 一 个 选择 是 用 额外 的 虚拟 内 存 空间 ， 分 成 SXM ASE SXM 的 虚 
拟 空间 来 存储 哈 希 树 。 用 分 开 的 虚拟 空间 可 以 使 得 SXM 程序 (例如 TSM) 可 以 使 用 一 整个 
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SXM 虚拟 地 址 空间 分 为 代码 和 数据 区 域 。 假 设 物 理 地 址 被 cache 命中 (第 10%), BK cache 
命中 的 任意 哈 希 树 块 ， 其 虚拟 块 地 址 也 被 存储 在 最 低层 cache 中 ， 这 样 就 可 以 用 来 决定 其 对 
应 父 蛤 希 节 点 的 虚拟 地 址 。 此 外 ,分 开 的 向 前 翻译 缓冲 区 ( TLB) 可 以 将 哈 希 树 虚 拟 页 数值 
翻译 为 其 对 应 的 物理 页 数值 。 为 提高 效率 ， 哈 希 树 块 可 以 存储 于 分 离 cache 内 存 中 。 如 果 虚 
拟 内 存 地 址 (存储 在 cache H) 表示 一 个 代码 块 ， 则 SP 可 以 用 程序 密 钥 来 对 进入 的 cache 块 
进行 解密 和 验证 。 男 一 方面 ， 如 果 虚 拟 内 存 地 址 表示 的 是 一 个 数据 块 ，SP 可 以 使 用 会 话 密 角 
来 对 进入 的 cache 块 进行 解密 和 验证 。 此 外 ， 如 果 数 据 块 被 随机 加 密 过 了 ， 存 放 在 虚拟 内 存 
空间 为 哈 希 树 及 其 叶 节 点 块 预 留 的 空间 中 的 分 配给 每 一 个 数据 块 的 唯一 数值 不 需要 被 加 密 。 


11.11.9 ”处 理 中 断 


中 断 要 求 在 产生 中 断 时 CPU 的 状态 (例如 ， 寄 存 器 内 容 和 中 断 返 回 地 址 ) 被 记录 下 来 ， 
且 在 终端 程序 重新 控制 时 被 重新 存储 起 来 (第 9 章 )。 在 SXM 中 ， 寄 存 器 内 容 和 返回 地 址 必 
须 被 安全 地 存储 以 检测 攻击 。SP 中 需要 的 额外 资源 的 总 数 取 决 于 SP 是 否 在 同一 时 间 只 用 于 执 
行 一 个 SXM 程序 (例如 单 TSM 处 理 器 )[55] 或 者 同时 执行 多 个 TSM (SXM 多 处 理 需 )[31-33]。 

1. 单 安全 执行 环境 

在 这 种 情况 下 ,任意 时 间 只 有 一 个 TSM 在 SXM 中 执行 ， 表 示 为 SXM-OP ( 单 处 理 
器 )。 这 样 只 有 一 个 SXM 状态 需要 在 中 断 过 程 中 被 保护 。 这 个 过 程 可 以 由 用 SP 的 SRK 来 
对 SKM 寄存 器 内 容 进 行 加 密 和 哈 希 实现 。 此 外 ， 寄 存 器 的 加 密 过 程 可 以 是 随机 的 ， 由 此 来 
防止 用 唯一 数值 进行 加 密 的 寄存 器 信息 泄露 (例如 随机 生成 的 随机 数 )。 加 密 的 寄存 器 内 容 
随后 被 存储 至 它们 各 自 的 寄存 器 中 以 便 中 断 处 理 程 序 (IH) 可 以 将 它们 存储 至 内 存 中 。 哈 希 
值 、 中 断 返 回 地 址 和 随机 数 (如 果 存 在 ) 将 会 安全 地 存储 在 SP 中 。 在 这 种 过 程 中 需要 的 密 
钥 和 它们 的 密 钥 材料 ， 还 有 SRH (如 果 存 在 ) 也 会 在 SP 中 保存 。 

在 SP 中， 寄存器 和 cache 线 被 标记 出 来 一 一 例如 ，SXM 的 1 和 非 SXM 的 0。 任 意 对 
JE SXM 处 理 器 中 标记 1 的 寄存 器 或 标记 1 的 cache Ri / 写 或 者 任意 对 SXM 处 理 器 中 的 标 
id 0 的 寄存 器 或 标记 0 的 cache Bix / 写 都 可 以 产生 异常 。SXM 处 理 器 可 以 通过 将 其 标记 改 
为 1 对 任意 寄存 器 和 数据 块 进行 写 操 作 。 中 断 产 生 时 ，SP 清除 所 有 SKM 标记 的 寄存 器 、 刷 
新 所 有 SXM 标记 的 cache 数据 块 ， 且 将 SP 从 SXM 改变 为 非 SXM 并 将 控制 权 交 回 给 IH。 

在 时 间 共 享 环 境 中 ，SP 除了 可 以 执行 TSM (SXM 程序 ) 也 可 以 执行 非 SXM 程序 。 当 
TSM 在 运行 时 ，OS 不 能 开始 执行 另 一 个 SKM 进程 。 当 从 一 个 中 断 返 回 时 ，SP 比较 返回 地 
址 和 原先 内 部 存储 的 地 址 。 如 果 两 个 地 址 相 匹 配 ，SP 就 换 成 SXM， 对 重新 存储 加 密 寄存 器 
的 内 容 进行 解密 ， 并 且 重 新 启动 SXM 进程 。 反 之 ， 返 回 地 址 如 果 表 示 一 个 非 SXM， 则 代表 
需要 重新 启动 对 非 SKM 进程 的 中 断 ( 11.11.8 节 )， 或 者 表示 一 个 攻击 ， 这 样 会 抛 出 异常 。 

2. 多 安全 执行 环境 . 

在 这 种 情况 下 ，SP 用 于 在 时 间 共 享 环境 中 执行 多 SXM 和 非 SXM 进程 。 密 钥 表 用 于 存 
储 中 断 SXM 进程 状态 下 的 进程 ID。 例如 ， 非 0 ID 用 于 标记 1D = 0 的 SXM 进程 及 一 个 非 
SXM 进程 。SP 资源 (例如 寄存 器 和 cache 线 ) 用 进程 ID 标记 。 这 个 表 可 以 是 一 个 SP 的 私 
BEHAR (MA) 也 可 以 是 一 个 存储 在 SP 外 部 的 虚拟 密 钥 表 。 

如 果 使 用 私有 密 钥 表 ， 则 SP 只 能 在 时 间 共 享 环境 中 执行 SXM 固定 的 数值 的 进程 。 如 
果 发 生 了 中 断 ， 密 钥 、 返 回 地 址 、 寄 存 器 内 容 等 就 会 存储 在 私有 表 中 ，SXM 寄存 器 将 会 清 
空 ; SXM 数据 块 会 在 控制 权 交 回 给 IE 前 清空 。 相 反 的 ， 除 了 将 寄存 器 内 容 存在 私有 表 中 ， 


我 们 可 以 维护 一 个 更 大 的 表 ， 寄 存 器 内 容 可 以 在 SXM-OP 中 处 理 。 寄 存 器 内 容 将 被 加 密 、 
哈 希 并 存储 回 内 存 中 的 IH 寄存 器 中 ， 且 哈 硕 和 其 他 信息 存储 在 表 中 。 

另 一 方面 ， 因 为 虚拟 密 钥 表 可 以 在 硬盘 中 复制 ， 其 大 小 可 以 根据 需要 增长 以 允许 在 时 间 
共享 环境 中 同时 执行 任意 数目 的 SKM 进程 。 然 而 ， 处 理 器 状态 ( 密 钥 、 寄 存 器 内 容 、 返 回 地 
址 等 ) 在 进程 ID 下 的 虚拟 表 中 存储 之 前 需要 用 SP SRK 进行 加 密 。 虚 拟 密 钥 表 页 可 以 映射 至 
物理 页 中 (第 10 章 )。 与 11.11.5 节 中 类 似 的 哈 硕 树 用 于 验证 与 虚拟 密 钥 表 相关 的 内 存 页 面 。 

与 有 在 片上 私有 密 钥 表 相 比 ， 维 护 一 个 虚拟 密 钥 表 需要 增加 对 中 断 处 理 延 迟 。 然 而 如 
果 与 虚拟 密 钥 表 相关 的 最 近 访 问 物 理 页 地 址 存储 在 SP 中 特殊 的 cache 内 存 中 并 能 快速 访问 ， 
这 个 延迟 可 以 减少 。 

当 用 私有 或 者 虚拟 密 钥 表 时 ， 从 中 断 中 重新 启动 类 似 于 对 SXM-OP 的 描述 。 然 而 ， 由 
于 同一 时 间 可 能 有 不 止 一 个 SXM 进程 在 运行 ， 返 回 地 址 将 会 与 存储 在 进程 ID 下 的 密 钥 表 
进行 比较 ; 如 果 两 个 地 址 匹配 ，SXM 进程 将 会 重新 启动 执行 。 


11.12 设计 示例 : REA 


本 节 展 示 了 包括 数据 通路 和 示例 SKM 指令 的 SP 架构。 数据 通路 包含 了 一 个 标准 的 处 
理 需 核心 和 安全 执行 所 需 的 模块 。 也 将 会 展示 一 个 简单 的 TSM 应 用 。 


11.12.1 SP 特征 


下 面 的 列表 列 出 了 示例 SP 的 特征 的 缺陷 : 

1 ) 在 任意 时 间 SP 只 支持 一 个 SXM 进程 执行 (例如 SXM-OP, 参见 11.11.9 节 )。 

2) SP 能 实现 CICC-SXM 和 DIDC-SXM 的 组 合 以 实现 对 程序 最 大 的 保护 。 在 本 节 中 ， 
SXM 项 表示 包含 保密 性 和 完整 性 可 信和 软件 模块 《TSM) 的 代码 和 数据 的 最 大 程序 保护 。 

3) SP 包含 了 可 以 启用 或 禁用 SXM 的 SXM 指令 集 。 

4 ) SP 包含 了 表示 一 个 SP 为 SXM 或 者 非 SXM 的 SXM 的 状态 位 集合 。 

5 )TSM 代码 块 (包括 静态 数据 ) 被 加 密 和 哈 希 来 检测 代码 欺骗 和 拼接 攻击 (如 果 存 在 )。 
代码 块 由 图 11-29 模式 的 编译 器 构成 。 在 需要 的 时 候 , “程序 块 ”项 用 于 关联 一 个 散人 入 在 代 
码 块 中 的 cache 块 和 哈 希 值 ， 如 图 所 示 。 此 外 , TSM 项 和 “SXM 程序 ”将 互 换 使 用 。“ SXM 
进程 ”表示 运行 的 TSM。 

6) 执行 过 程 中 会 动态 改变 的 SXM 程序 数据 块 将 会 被 加 密 且 哈 硕 树 会 用 于 检测 动态 数 
据 欺 骗 、 拼 接 和 重 放 攻 击 (如果 存 在 )。 

7 ) 动态 数据 块 的 加 密 过 程 不 是 随机 的 。 

8) SXM 有 自己 完整 独立 的 链接 库 以 便 在 编译 时 进行 静态 链接 。 程 序 不 需要 依赖 外 部 库 


或 者 系统 进程 。 
9 ) 在 编译 过 程 中 SXM 静态 地 声明 数据 块 且 分 配 内 存 空间 ; 在 执行 过 程 中 并 不 会 分 配 
内 存 空间 。 


10) = (物理 ) 存储 器 中 的 一 个 区 域 将 会 为 SXM 预 留 出 来 。 这 个 区 域 分 为 程序 代码 
(包括 静态 程序 数据 ) 和 动态 数据 区 域 。 最 主要 的 地 址 位 定义 了 每 一 个 区 域 ; 0 表示 代码 区 域 
且 1 表示 数据 区 域 。 数 据 区 域 又 分 为 数据 和 哈 希 树 区 域 ， 如 图 11-35a 所 示 。 有 4 个 叶 结 点 
(动态 ) 块 的 动态 数据 块 的 哈 希 树 展示 于 图 11-35b Fo 

11 ) SXM 程序 很 小 以 至 于 可 以 适合 其 整体 的 SXM 代码 区 域 。 这 样 ， 在 SXM 中 不 会 有 
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虚拟 到 物理 地 址 转换 的 过 程 。 
12) L2 是 最 低级 的 cache 内 存 且 使 用 如 MESI 协议 的 回 写 一 致 性 协议 (第 10 章 )。 
最 高 地 址 位 SRH= 哈 希 1= 哈 希 ( 哈 希 2， 哈 希 3 ) 
{MSB1, MSBO} 
00 


被 保护 的 程序 





哈 希 4 哈 希 6 
10 哈 希 5 哈 希 7 
4 5 6 7 
a ) 单独 的 代码 、 动 态 数据 和 b) 展示 有 4 个 动态 数据 块 作为 叶 结 点 和 哈 希 块 
动态 数据 哈 希 树 区 域 作为 父 结 点 的 二 叉 哈 希 树 


11-35 ”内 存 中 的 SXM 程序 代码 和 数据 组 织 : a) AFRI; b) 哈 希 树 (用 二 叉 树 展示 ) 


13 ) SP 包含 一 个 在 硬件 中 实现 的 加 密 /解密 和 哈 希 引擎 (EDHE) 作为 一 个 SP PH 
入 式 系 统 。 其 用 于 对 进入 的 SXM 代码 块 解密 和 哈 希 ， 对 进入 的 SXM 动态 数据 块 解 密 ， 且 
对 出 去 的 更 改过 的 SXM 数据 块 加 密 。 

14) SP 同样 也 包含 在 硬件 中 实现 的 哈 希 树 引 警 (HTE)， 也 是 一 个 在 SP 中 的 艇 入 式 系 
统 。 它 被 用 于 验证 进入 的 用 哈 希 树 的 SKM 数据 块 且 当 更 改过 的 数据 块 被 L2 cache 丢弃 时 更 
新 哈 布 树 。 

15 ) EDHE 和 HTE 都 需要 由 主板 制造 商 安全 安装 的 可 信 固 件 。 

16) SP 的 周 长 是 系统 的 安全 边界 。 这 样 cache 是 安全 的 且 可 以 包含 纯 文 本 指令 和 数据 。 

17) SP 也 可 以 包含 可 信 程 序 安装 器 和 装载 器 固件 ( 11.11.2 节 )。 装 载 器 固件 与 OS 通信 
来 完成 3 种 任务 : 

a. 装载 器 固件 提取 两 个 由 安装 器 生成 的 程序 密 钥 Koym-prog-enc 和 Keym-prog-sign 并 将 它们 存储 
在 SP 中 。 

b. 装载 器 生成 两 个 会 话 密 钥 Keym-session-enc 和 Keym-session-sign 并 将 它们 存储 在 SP 中 。 会 话 密 
钥 在 每 一 次 SXM 程序 开始 执行 的 时 候 都 会 改变 。 

c. 装载 固件 建立 最 初 TSM 数据 块 的 哈 希 树 。 数 据 块 初始 内 容 可 以 是 未 知 的 。 

一 旦 装载 固件 完成 这 些 任务 ，OS 就 开始 执行 SKM 程序 。 

18 ) 中 断 的 处 理 方 法 类 似 于 SXP-OP。 

19) 为 了 简化 ， 我 们 假设 SP 核心 包括 用 于 处 理 中 断 的 硬件 。 在 这 里 ,我 们 将 关注 EDHE 
和 HTE 上 的 数据 通路 。 


11.12.2 ARIER RTA 


11-36 展示 了 SP 的 数据 通路 。 其 包括 一 个 处 理 器 核心 ，L1 A L2 cache， 还 有 实现 
SXM 所 需 的 模块 。 Ay TF 48 A + FF ih A ?9 包括 由 安装 需 固 件 生成 的 Kimpoy 和 Km 
sim， 还 有 其 他 由 装载 器 固件 生成 的 密 钥 ， 和 两 个 由 装载 器 固件 生成 的 用 于 在 执行 过 程 中 保护 


HEPA R LH: BE 409 


TSM (动态 ) BERN SA K sn semionene AU noniion lids 

EDHE 负责 对 进入 的 SXM 程序 块 或 者 SKM 数据 块 进行 解密 和 哈 希 ， 且 对 更 改过 的 出 
去 数据 块 进行 加 密 。SXM 程序 块 包含 一 个 代码 块 和 一 个 能 人 入 哈 希 。 代 码 块 包含 指令 和 /或 
静态 数据 。 因 为 代码 块 的 内 容 一 般 不 会 改动 ， 所 以 这 些 块 在 被 替换 的 时 候 将 被 cache 删除 。 
HTE 负责 对 SXM 数据 块 的 哈 希 树 进 行 维护 。EDHE 和 HTE 将 稍 后 在 本 章 中 讨论 。 


异常 


EE 
SXE:SXM 启 动 
i maa SXA:SXM 话 动 中 


SXM 中 断 哈 希 (128 位 ) Ksym-prog-enc (128 位 ) Ksym-session-enc (128 位 ) 
Ksym-prog-sign (128 位 ) Ksym-session-sign (128 位 ) 





11-36 示例 SP 的 数据 通路 。SXM 实现 了 CICC 和 DIDC 安全 执行 模式 


SP 数据 通路 还 包括 一 个 2 位 SKM 状态 寄存 右 [55] ; 这 两 个 寄存 器 位 被 称 为 安全 执行 
使 能 标识 ( SXEF) 和 安全 执行 活动 标识 (SXAF)。SXEF 可 以 对 EDHE 和 HTE 进行 启动 。 
SXAF 用 于 保证 当前 只 有 一 个 SXM 进程 在 运行 。 当 SXAF 信号 有 效 ， 只 要 当前 有 一 个 SXM 
正在 运行 ， 它 将 会 阻止 OS 启动 另 一 个 SXM 进程 。SP 可 以 是 表 11-10 中 三 种 合法 模式 的 其 
中 一 个 6SXM 处 理 需 的 中 断 会 重 置 SXEF ， 将 其 标记 为 0， 且 从 SXM 中 断 设 置 SXEF 返回 1。 


表 11-10 ”基于 SXM 状态 值 位 SZAF 和 SXEF 的 SP 状态 

SXAF SP 状态 

o | 0 | sp 在 非 SXM 状态 是 当前 执行 一 个 非 SXM 进程 。OS 可 以 交换 一 个 SXM 进程 

o | 1 | 非法 状态 (未 用 到 ) 

Ey SXM 进程 被 中 断 且 没有 在 运行 。 当 前 执行 程序 是 一 个 非 SXP 进程 。OS 不 可 以 替换 另 一 个 

SXM 进程 ; 和 否则， 将 会 抛 出 异常 

1 | 1 | sP 在 SXM 状态 中 且 当 前 执行 一 个 SXM 进程 

如 图 11-36 所 示 ， 当 前 进程 的 寄存 器 内 容 和 cache 块 被 标记 为 1 (SXM) 或 0 (ṢE 
SXM)。 一 个 SXM 进程 可 以 只 读 SKM 标记 寄存 器 内 容 和 cache 块 。 然 而 进程 可 以 对 任意 的 
寄存 器 或 者 数据 块 进行 写 操 作 ， 将 标记 改 为 1 (SXM)。 男 一 方面 ， 非 SXM 进程 可 以 对 非 
SXM 标记 寄存 器 内 容 或 者 非 SKM 标记 的 cache 块 进行 读 或 者 写 操作 。 在 组 合 L2 Cache 中 
的 所 有 块 也 被 标记 为 非 SKM 或 SXM。 此 外 ,在世 2 中 的 指令 块 被 标记 为 “I” 且 数据 块 被 
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标记 为 “D”。 这 样 就 防止 SXM 进程 将 指令 块 当 作 数据 块 进行 访问 。 
表 11-11 展示 了 SXM 指令 集 。 其 他 参考 书 中 也 有 相似 指令 [31, 33, 35]。 


表 11-11 SXM 指令 集 
指 S | OR 


如 果 SXAF = 0， 这 个 指令 将 SXAF 和 SXEF 都 置 为 1 (活动 的 ) 从 而 让 SP 进入 SXM 
状态 。 SXEF = 1 启动 了 EDHE 和 HTE。 两 个 由 装载 器 固件 生成 的 会 话 密 铀 下 
ia 将 用 于 对 SXM 数据 块 进行 加 密 / 解 密 和 哈 硕 。 如 果 SXAF 为 ] 将 会 抛 出 
异常 


如 果 SXAF = 1 H SXEF = 1，SP 退出 SXM 状态 。 该 指令 将 清除 SXAF All SXEF 将 它们 
SXM EXIT 设置 为 0， 重 置 SXM 标识 寄存 器 、 刷 新 L1 数据 cache, HH L2 cache 中 的 SXM 标记 数据 
块 进行 废止 。 如 果 退 出 是 临时 的 ，L1 指令 cache Al L2 中 的 指令 块 将 不 会 被 刷新 


如 果 SXAF = 1 H SXEF = 1， 指 令 将 从 SXM 动态 数据 块 进行 装载 。 如 果 指 令 的 执行 引 
起 了 cache 缺失 ， 从 主 存 中 接收 的 块 将 在 装载 至 L2 cache 之 前 被 解密 且 被 标记 为 SXM., 
HTE 唤起 来 验证 SXM 数据 块 。 如 果 块 没有 被 验证 ， 将 会 抛 出 异常 来 中 止 SXM 进程 。 如 果 
SXEF 为 0 时 也 会 抛 出 异常 


如 果 SXAF = 1 H SXEF = 1， 指 令 安全 地 将 数据 从 cache 存 至 内 存 中 。 特 别 地 ， 指 令 将 对 
cache 中 的 块 进 行 写 和 更 新 操作 且 将 其 标记 为 SXM。 如 果 指 令 引 起 了 cache 缺失 ， 块 将 首先 
SXM ST 装载 进 cache 中 ， 标 记 为 SXM， 然 后 再 进行 更 新 。HTE 将 被 唤起 来 验证 进入 的 SKM 数据 
块 。cache 中 块 的 SXM 标记 与 块 中 所 有 字 进 行 关 联 ; SP 不 会 处 理 部 分 标记 块 。 如 果 SXEF 
为 0 将 会 抛 出 异常 


如 果 SXAF = 1 H SXEF = 1， 指 令 将 SXM 数据 块 装载 至 寄存 器 中 且 将 寄存 器 标记 为 非 
SXM， 人 允许 寄存 器 内 容 被 非 SKM 指令 使 用 。 如 果 指 令 引 起 了 cache 缺失 ， 在 被 装载 进 L2 
cache 之 前 ， 块 将 会 被 加 密 。HTE 被 唤起 来 验证 进入 的 SKM 数据 块 。 如 果 块 未 被 验证 ， 将 
会 抛 出 异常 来 中 止 SXM 进程 。 如 果 SXEF 为 0 也 会 抛 出 异常 


如 果 SXAF = 1 H SXEF=1, 指令 将 非 SXM 寄存 器 内 容 存 储 至 SXM 数据 块 中 。 如 果 指 
令 引 起 了 cache 缺失 ， 在 装载 至 L2 cache 之 前 块 将 会 被 加 密 且 标记 为 SXM。HTE 被 唤起 来 
验证 进入 的 SKM 数据 块 。 如 果 块 未 被 验证 ， 将 会 抛 出 异常 来 中 止 SXM 进程 。 如 果 SXEF 
为 0 也 会 抛 出 异常 


SXM_ENTER 


SXM LD 


LD_FROM_SXM 


ST_TO_SXM 


应 用 示例 : 安全 加 密 服 务 

考虑 一 个 实现 加 密 API 的 TSM。 应 用 软件 和 商业 操作 系统 ， 会 用 API 来 对 应 用 或 者 操 
作 系 统 级 数据 进行 加 密 。 人 例如， 考虑 一 个 用 API 且 在 密 钥 链 中 指定 一 个 密 钥 数值 ， 其 纯 文 
本 数据 在 内 存 中 的 内 存 起 始 地 址 和 目的 密码 文本 在 内 存 中 的 内 存 起 始 地 址 (参见 11.8.2 节 中 
的 示例 )。 以 下 列 出 了 TSM 对 应 用 数据 进行 安全 加 密 的 步骤 : 

1) TSM 执行 指令 “ SXM-ENTER”。 如 果 SXAF 为 0， 就 将 SP Hik SXM, W iR 
SXAF = 1， 则 应 用 必须 等 到 当前 执行 (不同 的 )SXM 进程 中 断 ， 重 置 SXAF( 将 其 标记 为 0 )， 
且 将 控制 权 返 回 OS， 然 后 才 可 以 开始 安全 加 密 TSM 进程 。 

2) 当 TSM RBA, CH “LD” (3882) 和 “ST_TO SXM” 指 令 将 应 用 纯 文 本 、 
非 SXM 数据 复制 到 主 存 中 的 SXM 数据 区 域 中 。 

3 ) TSM 将 从 应 用 提供 的 密 钥 链 中 安全 地 提取 出 加 密 密 钥 。 

4) 用 “SXM LD” 和 “SXM ST” 指 令 ，TSM 安全 地 对 纯 文 本 进行 加 密 ， 然 后 存储 
至 内 存 中 的 SXM 数据 区 域 、 密 钥 文本 也 将 存储 至 SXM 数据 区 域 。 

5) 最 后 , 使 用 “LD FROM SXM” 和 “ST”( 第 8 章 ) 指令 ，TSM 将 生成 的 密 钥 文本 
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才能 过 SXM 数据 区 域 复 制 到 内 存 中 的 应 用 密 钥 文 本 (SE SXM) 数据 区 域 中 。 


11.12.3 ”加 密 解 密 哈 希 引擎 


在 SP 中 ，EDHE 包含 了 加 密 、 解 密 和 哈 希 图 数 ， 作 为 通 人 式 系统 实现 。 当 SXEF Rix 
为 1 时 其 可 以 运行 多 项 任务 。EDHE 解密 、 哈 希 和 验证 进入 的 程序 cache 块 ， 它 们 都 包含 了 
代码 块 和 岁入 哈 希 。 在 执行 “SXM LD”“SXM ST”“LD FROM SXM” 或 者 “ST TO 
SXM” 指 令 时 ，EDHE 可 以 对 进入 的 数据 块 进行 解密 ， 且 可 以 对 更 改 的 有 SXM 标记 的 数据 
块 进行 加 密 。 注 意 到 SXM 数据 块 的 随机 加 密 是 在 示例 SP 中 实现 的 。 未 改变 的 标记 为 SXM 
的 数据 块 将 在 块 被 替换 时 被 cache 删除 。SXM 程序 或 数据 块 的 块 地 址 也 用 于 块 加 密 、 解 密 
和 哈 希 。 哈 希 中 的 块 地 址 包容 用 于 检测 拼接 攻击 (如 果 存 在 )。 

cache 线 验 证 : 代码 块 

地 址 位 中 最 重要 的 两 位 (MSB1 和 MSB0 ) 定义 了 两 种 不 同 的 块 ; (00) 定义 为 程序 块 且 (11)2 
定义 为 数据 块 (图 11-35a) 0 Keym-prog-enc 用 于 对 每 一 个 SKM 程序 块 进行 解密 ， 且 Keym-prog-sign 用 于 对 
每 一 个 SXM 代码 块 进行 哈 希 。 会 话 加 密 密 钥 Ksymsession-ene 用 于 对 SKM 数据 块 进行 解密 /加 密 。 

对 于 进入 的 SXM 程序 块 (代码 块 加 散 入 哈 希 )， 如 果 代 码 块 计算 的 哈 希 与 艇 入 哈 希 
匹配 ， 程 序 块 中 的 哈 希 值 将 在 程序 块 被 存 至 L2 cache 中 之 前 被 NOP 指令 代替 。 此 块 将 在 
cache 中 置 为 合法 的 且 标 记 为 1 (SXM). Al, cache 线 将 会 置 为 非法 的 (1) 且 会 抛 出 异常， 
这 样 将 会 中 止 SXM 进程 (阻止 攻击 )。 

如 果 进 入 的 SXM 数据 块 是 执行 “SXM LD” 或 者 “LD FROM SXM” 指 令 的 结果 ， 
块 将 被 认为 是 一 个 SKM 数据 块 。 此 块 将 从 内 存 中 装载 且 在 其 存 至 L2 cache 之 前 进行 加 密 
(用 Ksymsession-enc)。 数 据 块 和 其 块 地 址 也 被 装载 进 HTE 进行 验证 。 然 而 ，cache 中 的 块 被 认为 
是 合法 的 且 程序 将 会 继续 正常 运行 除非 HTE 抛 出 异常 ， 标 记 一 个 攻击 。 由 于 写 缺 失 ， 对 于 
进入 SXM 数据 块 的 处 理 不 管 是 用 “SXM ST” 还 是 “ST TO SXM” 结 果 是 一 样 的 一 一 块 
被 解密 且 装 载 进 cache H, HTE 被 唤醒 来 验证 块 ， 且 块 在 L1 数据 cache 中 被 更 新 且 在 L1% 
据 cache 和 L2 cache 中 被 标记 为 已 更 改 。 

图 11-37 展示 了 EDHE 和 HTE 在 读 循环 中 的 数据 通路 ， 且 图 11-38 展示 了 写 循环 的 数 
据 通 路 。 


11.12.4 BAHSI 


HTE 负责 对 哈 硕 树 进行 解析 ， 从 而 对 进入 的 SXM 数据 块 进行 验证 ， 且 当 更 改 的 SXM 
数据 块 被 L2 cache 丢弃 且 从 SP 中 的 安全 边界 离开 时 ， 对 哈 布 树 进 行 更 新 。 然 而 ， 因 为 树 的 
解析 需要 时 间 ， 验 证 过 程 是 在 后 台 运 行 的 ; 不 需要 数据 推测 执行 。 在 这 种 情况 下 ， 数 据 推测 
执行 意味 着 处 理 器 继续 执行 程序 ， 但 不 会 将 计算 结果 提交 给 寄存 器 ， 除 非 推测 执行 中 的 数据 
已 被 验证 过 。 然 而 ， 因 为 除了 重新 启动 程序 以 外 ， 目 前 没有 比较 普遍 的 办 法 来 从 攻击 中 恢复 
过 来 [66]， 所 以 SP 可 以 把 计算 结果 提交 给 寄存 器 。 在 cache 缺失 的 时 候 ， 装 载 进 L2 cache 
的 SXM 数据 块 被 标记 为 合法 的 (例如 ， 在 MESI 协议 中 的 EE 或 $ 状态 )， 且 程序 还 是 照常 继 
续 执 行 直 到 HTE 抛 出 异常 ， 表 示 检 测 到 攻击 。 异 常会 引起 SP 中 止 进程 且 把 控制 权 交 还 给 
OS; 程序 仍然 可 以 重新 运行 。 

1. cache 线 验证 : 数据 块 

HTE 验证 数据 块 的 数据 通路 也 展示 在 图 11-37 Fo HTE 递归 地 在 哈 希 树 中 的 结 点 上 操 
作 ， 用 图 11-35b 的 示例 哈 希 树 ， 如 表 11-12 所 示 。 
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EDHE: 写 





六 


Ksym-session-encl 





如 果 {MSB1, MSBO} = 11, 
块 进行 


MSB: 最 重要 位 
内 存 / 
总 线 接口 
哈 希 树 引擎 (HTE): 更 新 哈 希 树 


11-38 回 写 数据 块 至 内 存 ; 丢弃 一 个 更 改过 数据 块 的 数据 通路 
表 11-12 用 哈 希 树 进行 动态 数据 块 验 证 实例 


读 取 的 数据 志 Cache 中 的 块 
A x 
| 2: 验证 | 1 | 读 命中 2 | Blockl.Hash2 =? Hash2, BUR 2 5,2 
Block2.Hash5 =? Hash5, 移 除 5 5, 2, 

we 2 
x 

war [acme | i ieee] ae ans =a [9 
x 


“HEA”: 块 与 其 块 地 址 进入 HTE 的 缓存 中 
HR: 块 与 其 块 地 址 从 缓存 中 移 除 


假设 cache 最 初 是 空 的 且 SP 访问 的 第 一 个 数据 项 在 SKM 数据 块 5 中 。 当 内 存 找 到 块 
5, MHk 5 被 解密 且 被 EDHE 存 至 L2 cache 中 。 在 这 里 ， 此 块 将 被 复制 到 Ll 数据 cache 中 。 
此 时 ， 在 所 有 cache PH 5 的 状态 都 是 合法 的 。 当 块 被 装载 进 SP Ht, H s 和 其 块 地 址 也 被 
存 至 HTE 的 缓存 中 。 随 后 HTE 验证 块 5。 根 据 块 地 址 ，HTE 确定 块 2 是 块 5 的 父 结 点 块 且 
会 尝试 从 L2 cache 进入 块 2 中 。 然 而 ， 因 为 cache 初始 为 空 ， 块 2 会 引起 一 个 缺失 。 当 内 存 
提供 块 2， 块 被 存储 至 L2 cache 中 是 与 其 块 地 址 一 起 存 至 HTE 中 。 注 意 到 父 结 点 块 包含 了 
哈 希 值 且 在 装载 进 L2 cache 前 就 不 需要 解密 步骤 ， 如 图 11-37 所 示 。 

此 时 ，HTE 尝试 访问 块 1， 根 结 点 块 也 是 块 2 的 父 结 点 块 。 再 次 地 ， 块 1 不 在 cache 中 
引起 了 一 个 缺失 。 其 从 内 存 读 出 且 装 载 至 L2 中 ， 与 其 块 地 址 进入 HTE 的 缓存 中 。 所 有 块 ， 
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包括 哈 希 块 在 装载 时 都 被 标记 为 合法 。 因 为 块 1 是 根 结 点 块 ， 所 以 HTE 计算 且 用 其 哈 希 值 
( Hashl ) 与 存储 在 SP 中 的 SRH 比较 。 如 果 Hashl 与 SRH 匹配 ， 块 1 就 被 认为 验证 通过 生 
在 缓存 中 清除 ， 然 后 在 缓存 中 的 块 2 将 会 被 进行 验证 。 

此 时 ，HTE 计算 块 2 的 哈 希 值 (Hash2 ) 且 将 其 与 块 1.Hash2 比较 。 如 果 两 个 哈 希 值 匹 
配 ， 块 2 验证 通过 且 从 缓存 中 移 除 ， 还 剩 下 块 5 在 缓存 中 等 待 验证 。 最 后 ， 计 算 块 5 的 哈 
希 值 ( Hash5 ) 且 与 块 2.Hash5 比较 。 如 果 两 个 哈 希 值 匹配 ， 块 5 验证 通过 且 从 缓存 中 移 除 。 
这 个 过 程 将 中 止 哈 希 树 对 块 $ 的 验证 解析 。 如 果 在 树 解 析 任 意 时 间 内 ， 任 意 两 个 哈 希 值 不 匹 
配 ， 则 HTE 会 抛 出 异常 ， 在 中 止 SXM 进程 且 把 控制 权 交 回 给 OS 之 前 ， 这 会 引起 SP 清除 
所 有 SXM 标记 的 寄存 器 且 刷 新 L1 数据 cache 和 所 有 SXM 标记 的 L2 数据 块 。 

如 表 11-12 所 示 ， 内 存 访问 的 第 一 个 块 是 块 5，HTE 需要 花费 好 几 步 来 验证 。 然 而 ， 验 证 
其 他 的 块 如 块 4， 只 需要 一 步 就 可 以 完成 验证 。 这 是 因为 块 2 作为 块 4 的 父 结 点 块 已 经 存在 于 
L2 cache 中 (假设 没有 被 蔡 换 ) 且 在 验证 块 $ 时 已 经 验证 过 ， 如 表 所 示 。 所 以 ， 在 验证 其 他 块 
时 ， 由 于 在 验证 块 5 时 已 经 验证 过 ， 从 块 2 到 SRH 的 数据 通路 上 的 哈 希 值 都 不 需要 重新 验证 。 

在 最 后 的 例子 里 ，SXM 数据 块 7 装载 进 cache 中 上 且 与 其 块 地 址 一 起 进入 HTE 的 缓存 中 。 
其 哈 希 值 (Hash7 ) 需要 计算 并 且 与 块 3.Hash7 比较 。 然 而 ， 块 3 此 时 并 不 在 cache H, H 
3 从 内 存 中 装载 至 L2 cache 中 且 与 其 块 地 址 进入 HTE 的 缓存 中 。 因 为 块 1 已 经 验证 过 了 且 
在 cache 中 合法 ， 如 表 所 示 ，Hash3 被 计算 且 与 块 1.Hash3 比较 。 如 果 两 个 哈 希 值 匹 配 ， 块 
3 验证 通过 且 从 缓存 中 移 除 ， 留 下 块 7 进行 下 一 步 验证 。HTE 计算 Hash7 且 与 块 3.Hash7 HE 
较 。 如 果 两 个 哈 希 值 匹配 ， 数 据 块 7 被 认为 验证 通过 且 从 缓存 中 移 除 。 

注意 ， 当 在 验证 块 5 时 , 块 4 和 块 7 可 能 会 进入 缓存 中 。HTE 根据 先进 先 服务 (FCFS) 
的 顺序 验证 数据 块 。 

2. 哈 希 树 更 新 

在 cache 丢弃 一 个 更 改过 的 SXM 数据 块 时 ，HTE 也 会 重新 计算 一 个 新 的 SRH。 在 
K 11-13 中 展示 了 用 图 11-38 中 的 数据 通路 和 图 11-35b 中 的 哈 希 树 的 示例 过 程 。 


R 11-13 ” 哈 希 树 更 新 示例 


EYE 

ne SC |>? 
wAs ee | SRH ———=*dSRM =P tas, gO o 
AY [i Easra | SRH | Ssn mge | 

7 


' 和 "表示 更 改 的 次 数 ,，' (一 次 ) 且 “(两 次 );“ 进 入 ” 块 与 其 块 地 址 进入 HTE 缓存 中 ;“ 移 除 ” 从 缓存 中 移 除 
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假设 SXM 数据 块 5' 在 L2 cache 中 ， 这 里 ' 表 示 块 被 更 改过 。 假 设 块 $' 被 cache EF, 
将 会 被 加 密 且 复制 到 内 存 中 。 为 了 对 哈 希 树 进行 更 新 操作 ， 加 密 过 的 块 S 与 其 块 地 址 在 离 
FF L2 cache 的 同时 将 被 复制 到 HTE 的 缓存 中 。 因 为 SP 中 的 cache 被 认为 是 安全 的 ，HTE 
只 需要 更 新 块 2， 即 块 5 的 父 结 点 块 。 假 设 块 2 不 在 cache 中 ， 这 将 引起 cache 缺失 。 块 2 
将 从 内 存 复制 到 L2 cache 7 AK HTE 进行 验证 ， 则 块 1 也 需要 被 验证 ， 如 之 前 讨论 过 的 循 
环 一 样 。 

L2 cache 中 的 块 2' 内容 将 变 为 {Hash4, HashS’}, {} 表示 串联 ， 且 块 5S 从 缓存 中 被 移 
除 ， 完 成 哈 希 树 的 更 新 。 接 下 来 ， 假 设 块 4' 被 L2 cache 丢弃 。 假 设 块 2' 还 在 cache H, X 
个 更 新 将 不 会 引起 cache 缺失 且 会 非常 快 地 将 块 2" 变 为 {Hash4’, Hash5'}, " 表示 两 次 更 新 。 
块 7' 的 丢弃 需要 块 3 更 新 Hash7'。 然 而 ， 假 设 块 3 在 cache 中 缺失 ， 则 块 3 将 从 内 存 中 读 
出 ， 验 证 然后 更 新 。 这 样 会 引起 块 3.Hash7 在 cache 中 被 Hash7' 替换 且 块 7' 会 从 缓存 中 
移 除 。 

接 下 来 ， 假 设 块 包含 {Hash4’, Hash5'} 的 块 2" 被 cache 丢弃 。 块 2" 与 其 块 地 址 将 
进入 HTE 的 缓存 中 。 根 据 其 地 址 ，HTE 确定 块 1 为 块 2 的 父 结 点 块 ， 必 须要 更 新 。 假 设 
H 1 仍然 在 cache 中 ， 经 过 更 新 后 ,， 块 1' 内容 变 为 {Hash2"，Hash3}， 且 块 2" 从 缓存 中 
移 除 。 

表 11-13 同样 也 展示 了 块 1' 被 丢弃 的 过 程 ， 这 将 引起 HTE 去 更 新 SRH FH Hash’, 
且 展 示 了 块 3' 的 丢弃 过 程 ， 引 起 块 1 重新 加 载 且 验证 ， 然 后 更 改 Hash3'。 注 意 到 ， 当 离开 
SP 时 哈 希 块 不 需要 被 加 密 ， 且 加 载 至 cache 时 不 需要 被 解密 。 

相 比 于 标准 处 理 器 ，SP 引入 了 额外 的 开销 。 如 图 11-37 所 示 ， 每 一 个 SXM 程序 和 数据 
块 在 装载 进 L2 cache 之 前 都 需要 解密 ， 需 要 密 铀 。 此 外 ， 哈 希 树 解 析 或 者 更 新 都 产生 了 额 
外 的 cache 流量 ， 这 可 能 减缓 下 一 个 SXM 进程 的 执行 。 然 而 ， 我 们 可 以 使 用 单独 的 cache 
来 存储 哈 布 块 以 增强 效率 。 


11.13 ”延伸 阅读 


我 们 除了 提供 了 一 些 介 绍 和 背景 知识 ， 也 讨论 通过 硬件 来 保护 密 钥 链 ， 内 存 验 证 机 制 和 
通过 建立 SXM 来 划分 执行 环境 。 下 列 是 一 些 其 他 运行 硬件 检查 类 型 的 示例 : 

o 处 理 器 或 许可 以 实现 一 种 用 来 监测 缓冲 区 溢出 攻击 [67, 68] 的 在 硬件 中 的 安全 返回 地 
DER ( SRAS)。 尽 管 恶 意 软件 可 以 引起 缓存 溢出 和 用 一 个 新 的 地 址 (例如 病毒 地 址 ) 
对 内 存 栈 进行 欺骗 ， 返 回 地 址 将 与 存在 处 理 器 中 SRAS 中 的 地 址 不 一 样 ， 这 样 就 不 
会 使 得 地 址 跳 转 去 执行 病毒 。 这 个 机 制 与 用 11.11.9 节 中 的 私有 或 者 虚拟 表 来 限制 返 
回 地 址 (并 不 是 所 有 类 型 的 进程 ) 很 像 。 
硬件 阵列 边界 检查 器 使 用 基本 地 址 和 阵列 的 大 小 来 监控 溢出 边界 错误 [69]。 

人 硬件 监控 器 可 以 监测 不 正常 的 程序 行为 。 这 些 包 括 在 硬件 中 建立 区 域内 和 进程 间 的 
控制 流量 监控 器 [70]。 监 控 器 可 以 是 一 个 基于 FSM 的 检查 器 也 可 以 是 在 编译 期 间 
动态 监控 跳 转 (区域 内) 和 调用 /返回 (进程 间 ) 地 址 的 程序 控制 流 和 数据 流 图 像 。 
FSM 和 表 都 可 以 用 于 跟踪 所 有 人 允许 的 呼叫 -被 叫 关系 。 表 中 存储 了 调用 / 返回 地 址 
且 将 地 址 映射 至 FSM 状态 中 。 非 法 的 调用 /返回 地 址 表示 了 一 个 引起 FSM 进入 非 
法 状态 的 非法 行为 。 

o 基于 分 析 的 程序 检查 器 核实 程序 是 否 遵循 了 一 条 正常 的 执行 路 径 [71]。 所 有 可 能 的 
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程序 路 径 在 某 些 训练 运行 的 时 候 都 会 被 记录 下 来 ， 且 检查 器 利用 这 些 记 录 来 监测 非 
法 路 径 。 训 练 时 间 必 须 足 够 长 以 便于 减少 判断 出 错 的 次 数 。 

在 硬件 中 动态 跟踪 程序 信息 流 [72-75]。 一 个 完整 的 策略 是 在 处 理 器 中 实现 防止 高 完 
整 性 数据 去 使 用 OS 标记 的 低 完整 性 数据 的 功能 。 如 果 在 进入 系统 时 ， 一 项 输入 被 标 
记 为 低 完 整 性 的 ， 例 如 ， 通 过 如 USB 主机 控制 接口 的 设备 控制 接口 CDCI) 的 输入 。 
污点 数据 值 将 被 用 作 指 令 或 者 内 存 地 址 〈 指 针 ) 来 防止 被 污染 。 门 级 信息 流 跟 踪 [74] 
硬件 需要 对 每 个 逻辑 门 都 设置 阴影 逻辑 来 跟踪 每 一 位 数据 的 可 信和 度 。 每 一 位 输入 和 
每 一 位 输出 都 被 标记 为 可 信 (0 ) 或 者 不 可 信 (1 )。 这 样 ， 简 单 地 用 一 位 不 可 信 位 不 
能 总 是 表示 结果 是 不 可 信 的 。 这 个 结果 还 依赖 于 用 于 处 理 不 可 信 位 的 逻辑 门 。 例 如 ， 
用 一 位 可 信和 输入 x = 0 和 一 位 不 可 信和 输出 y= 0 或 1 的 与 门 ， 结 果 将 为 0， 是 可 信 的 。 
用 这 种 机 制 进行 跟踪 的 指令 集 架 构 (ISA) 数据 通路 要 求 程序 指针 (PP) 不 能 无 条 件 
修改 且 不 能 有 间接 的 内 存 加 载 / 存储 指令 。 如 果 条 件 是 不 可 信 的 ， 则 PP 的 内 容 也 是 
不 可 信 的 ， 且 这 样 会 导致 所 有 寄存 器 甚至 所 有 的 内 存 空 间 的 内 容 也 是 不 可 信 的 。 这 
样 所 有 依赖 于 条 件 的 指令 都 必须 转换 为 断言 指令 ， 且 所 有 无 边界 的 循环 都 必须 转换 
为 有 边界 的 循环 (为 了 防止 时 间 信 息 泄漏 )， 这 些 有 边界 的 循环 使 用 有 中 止 条 件 的 计 
数 器 ， 在 这 个 条 件 下 ， 循 环 中 的 所 有 指令 都 判断 为 这 个 条 件 的 和 否定。 计数 器 由 一 个 
特殊 的 指令 (“ counterjump” ) 进行 初始 化 且 在 每 次 迭代 中 减 1 直至 到 0。 在 这 种 机 
AF, UE (GLEE) 将 作为 一 个 实体 来 执行 ， 当 其 完成 时 ， 将 会 引起 PP 增 
1 且 无 分 支 退 出 循环 。 在 这 里 我 们 不 考虑 硬件 中 的 不 可 信 信 息 流 木马 和 可 能 算 改 内 存 
内 容 的 物理 攻击 。 可 以 证 明 ， 当 阴影 逻辑 可 能 增加 电路 的 规模 时 (在 某 一 研究 中 能 增 
长 70%)， 它 不 产生 负面 影响 的 时 钟 频 率 。 

代码 和 数据 进行 替换 ， 通过 比较 运行 程序 的 多 份 备 份 的 行为 来 检测 攻击 [76]。 在 每 
次 替换 中 ,不同 的 内 存 层 用 来 检测 内 存 访问 错误 ， 每 次 复制 产生 不 同 的 哈 希 结构 
来 保护 严格 的 数据 完整 性 ， 且 用 每 次 复制 不 同 的 加 密 结 构 来 更 好 地 保护 数据 的 保 
通过 实现 更 好 的 内 存 带 宽 分 配 结构 来 保护 可 用 性 。 存 储 器 控制 器 (MC) 通常 运用 多 
种 算法 来 优化 和 安排 由 内 存 提 供 的 优秀 cache 缺失 机 制 。 例 如 先 到 先 服务 (FCFS) 机 
制 也 可 以 给 从 当前 活动 行 (第 7 章 ) 访问 的 列 分 配 最 高 的 优先 级 ， 以 此 来 增加 内 存 吞 
吐 量 ， 且 下 一 个 优先 级 分 配给 剩 下 的 未 完成 请 求 中 最 旧 的 非 活动 行 [77, 78]。 然 而 ， 
刷新 有 随机 (地址 ) 事务 MC 的 恶意 线程 可 能 会 增加 行 访 问 的 次 数 且 这 样 将 会 增加 
其 他 线程 的 等 待 时 间 。 失 速 时 间 公 平 内 存 调度 ( STFM) 用 内 存放 缓 值 来 更 好 地 人 处理 
内 存 请 求 [79]。 在 这 种 情况 下 ， 存 储 器 控制 句 为 每 一 个 有 一 个 优秀 事务 列表 线程 计 
算 一 个 内 存放 缓 (S) 值 ， 如 果 有 其 他 的 线程 (Tiparea) 共享 内 存 ， 这 个 值 将 作为 平均 
失速 值 的 速率 ， 如 果 只 有 这 一 个 线程 ( Taone)， 这 个 值 将 作为 期 望 失 速 值 。 由 此 ，S = 
Thared/ Taloneo。 不 公平 参数 ( U) 将 被 用 式 子 U = Smwax/Smin， 这 里 Smax 和 Smin 时 所 有 请 求 
中 内 存放 缓 的 最 大 和 最 小 值 。 如 果 U 小 于 一 些 可 接受 的 值 (例如 U < a)， 则 调度 将 
用 一 种 算法 来 增加 内 存 的 吞吐 量 一 一 例如 ， 通 过 给 突 发 事务 分 配 更 高 的 优先 级 。 男 一 
方面 ， 如 果 U 二 a， 则 在 优秀 内 存 请 求 处 理 中 存在 不 公平 因素 ，S = Sma 的 对 应 的 线 
程 请 求 将 会 被 分 配 到 最 高 的 优先 级 。 然 后 FCFS 调度 将 用 来 优化 所 有 最 高 优先 级 请 求 
中 的 事务 调度 。 
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练习 


11.1 


11.5 
11.6 
a By 
11.8 
11.9 


11.10 


11.11 


列 出 多 种 用 户 、 组 织 (如 军队 、 银 行 )、 应 用 程序 和 系统 (如 个 人 计算 机 、 云 、 手 持 设 备 ) 可 能 

遇 到 的 安全 问题 。 

考虑 一 个 政府 办 公 室 发 放 护 照 。 效 仿 SEM AR 11-1 中 的 示例 来 开发 一 种 “发 放 难 以 伪造 的 护 

照 ” 的 安全 机 制 。 

给 出 一 个 理由 说 明 为 什么 在 一 个 组 织 中 强制 访问 控制 是 必要 的 ? 

考虑 一 个 带 有 客户 可 以 租借 的 保险 箱 的 银行 。 银 行 需要 选择 一 个 方案 只 允许 授权 者 访问 保险 箱 。 

另外， 客户 希望 有 更 多 的 自由 ,偶尔 允许 他 们 的 朋友 或 亲 威 来 访问 他 们 的 箱子 。 为 以 下 每 个 技 

术 ， 了 逐条 列 记 和 银行 和 业主 的 安全 所 需要 做 的 及 它们 需要 哪些 保护 ， 以 防止 未 经 授权 的 人 访问 一 

个 安全 性 问题 或 拒绝 一 个 合法 人 的 访问 。 

a. 给 出 一 个 银行 可 以 使 用 的 基于 ACL 的 强制 性 的 安全 方案 。 提 示 : 每 一 位 顾客 给 银行 一 系列 同 
样 可 以 访问 这 种 安全 机 制 的 名 字 。 

b. 给 出 一 个 银行 可 以 使 用 的 基于 列表 的 功能 的 安全 方案 。 提 示 : 银行 给 每 一 位 顾客 个 密码 来 
供给 朋友 或 亲戚 。 

多 级 安全 策略 模型 是 什么 ? 

多 级 安全 策略 是 什么 ? 

简要 介绍 BLP 的 *- 属性 。 

什么 政策 模型 可 以 用 来 防止 Stuxnet 恶意 软件 改变 一 个 工业 控制 系统 的 规范 ? 

Stuxnet 是 为 了 寻找 一 个 特定 的 控制 系统 而 被 称 为 可 编程 逻辑 控制 器 (PLC)。 什 么 政策 模型 可 以 

用 来 防止 Stuxnet 通过 网 络 传输 控制 系统 信息 ? 

Flame 恶意 软件 被 设计 成 从 计算 机 系统 中 “吸取 ”信息 (按键 、 截 图 、 音 频 等 )， 然 后 通过 因 特 
网 将 它 发 送 给 控制 它 的 人 。 什 么 政策 模型 可 以 用 来 防止 Flame 通过 网 络 传输 数据 ? 

为 什么 实现 了 访问 控制 机 制 和 系统 的 软件 运行 起 来 需要 保持 信赖 ? 
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假设 CPU 使 用 一 个 8 位 的 超前 进位 加 法 器 (CLA)。 使 用 两 个 CLA 模块 ， 但 假如 改动 其 中 的 

一 个 使 其 输出 错误 的 结果 。 例 如 ， 改 变 正确 的 表达 式 s= p @ cy 为 5; = 户 图 cy 。 一 个 典型 的 
处 理 器 上 有 数 十 亿 晶体 管 ， 很 难 判断 出 其 中 有 两 个 加 法 器 。 按 如 下 操作 : 

a. 设计 一 个 输入 触发 硬件 木马 ， 在 输入 为 0x44 时 触发 输出 错误 的 结果 。 

b. 假设 你 使 用 50 个 特定 的 测试 向 量 来 测试 这 个 加 法 器 。 检 测 到 木马 的 概率 是 多 少 ? 

c. 假设 这 个 加 法 器 是 32 位 的 CLA， 带 有 完全 相同 的 输入 触发 为 0xAAAAAAAA 的 木马 。 确 定 
一 百 万 次 测试 中 能 够 检测 到 木马 的 概率 。 

假设 一 个 模 24 计数 器 被 用 来 创建 一 个 定时 炸弹 木马 。 

a. 你 需要 多 少 测试 向 量 来 触发 这 个 木马 ? 

b. 假设 你 使 用 10M 次 测试 ， 这 个 电路 仍然 工作 正常 。 你 需要 多 久 重 置 一 下 电源 来 阻止 定时 炸 
弹 的 触发 ? 3 

c. 设计 一 个 输出 1 的 电路 来 重 置 可 能 使 用 计数 器 创建 了 定时 炸弹 木马 的 模块 的 电源 。 还 假设 测 
试 向 量 的 数量 部 分 (b) 包括 后 硅 验证 期 间 测试 应 用 ; 也 就 是 说 ， 在 大 规模 生产 之 前 。 示 例 芯 
片 制造 后 硅 验 证 的 目的 只 是 为 了 使 用 实际 硬件 代替 仿真 工具 申请 更 多 的 测试 。 

设计 以 下 图 11-39 所 示 的 16 位 加 密 /解密 电路 。 它 使 用 一 个 多 功能 16 位 输入 寄存 器 ， 一 个 
右 移 寄存 器 作为 输出 寄存 器 和 一 个 带 有 密 钥 的 8 位 LSFR。 这 个 电路 手工 操作 (不 需要 控制 单 

元 )。 验 证 你 的 设计 。 


16 位 数据 


| 











16 位 输入 寄存 器 (IR ) 


16 位 输出 寄存 器 (OR) 


16 位 密码 位 






内 部 保密 
El 


图 11-39 练习 11.14 的 数据 通路 


发 展 的 威胁 的 三 个 来 源 是 什么 ? 

除了 需要 更 多 的 硬件 ， 使 用 同 态 加 和 密 的 目的 是 什么 ”将 同 态 加 密 的 实现 变 得 更 加 困难 的 可 能 潜 
在 问题 是 什么 ? (提示: 也 可 以 参考 第 3 章 中 的 FP 算法 )。 

设计 一 个 基于 有 限 状 态 机 的 控制 单元 一 次 加 密 /解密 16 位 的 数据 。 图 11-40 表示 了 这 个 框图 。 
当 插 入 start 信号 时 控制 器 开始 工作 。 一 个 用 户 选 用 了 一 个 16 位 的 输入 来 切换 连接 到 DFF 上 
的 开关 来 插入 start 信和 号， 如 图 中 所 示 。 一 旦 控制 器 开始 工作 ，ack (确认 ) 信号 用 来 复位 DFF, 
这 个 加 密 /解密 数据 通路 包含 一 个 计数 器 来 计数 多 功能 寄存 器 必须 移 位 的 次 数 。 在 这 个 框图 中 ， 
CC 表示 了 组 合 电路 。 当 计数 器 达到 了 右边 的 值 ， 操 作 停止 ， 控 制 器 返回 到 standby, EM 
状态 。 每 次 加 密 /解密 一 个 16 位 的 输入 时 ， 这 个 系统 应 当 仅 被 复位 一 次 ， 工 作 多 次 。( 也 可 以 
参考 练习 11.14 ) 
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16 位 明文 和 密 文 输入 


16 位 输入 多 功能 寄存 器 






16 位 输出 多 功能 寄存 器 













16 位 密 文 和 明文 输出 
+5V 


8 位 LFSR 





计数 器 


时 钟 和 复位 都 连 到 了 所 有 的 同步 模块 
pp ( 除了 时 钟 没有 连 到 DFF 上 ) 


11-40 练习 11.17 的 数据 通路 和 控制 单元 


给 出 e=5, d=29, MH n=91, 使 用 RSA 来 加 密 已 =6， 解 密 C = 41。 

给 出 e=5, d=29, 而 且 n=91, 使 用 RSA 来 加 密 P= 13。 

IRI IV = 8h77。 使 用 CBC 模式 的 RSA 和 公开 密 钥 e = 5，n = 91 确定 明文 =“HELLO” 的 密 文 。 
例如 ， 第 一 个 Po = 72 = 8h48 在 被 加 密 产 生 密 文 Co 之 前 先 与 8h77 进行 了 异 或 操作 ; 然后 P 
= 8”h45 在 被 加 密 产 生 C 之 前 先 与 Co 进行 了 异 或 操作 ， 等 等 。 

说 明 为 什么 MAC 或 HMAC 是 必要 的 。 

MAC 的 优点 是 什么 ”同时 检查 AES-GCM 在 线 的 属性 。 

HMAC 的 优点 是 什么 ? 

考虑 一 个 带 有 8B 缓存 块 和 256B 主 存 的 系统 。 组 织 这 个 内 存 为 一 个 二 叉 哈 希 树 。 特 别 地 ， 给 
出 孩子 结 点 的 主 存 地 址 ， 制 定 一 种 方案 来 判断 它 的 父亲 结 点 的 主 存 地 址 。 

考虑 一 个 带 有 8B 缓存 块 和 128B 主 存 的 系统 。 组 织 这 个 内 存 为 一 个 4 叉 哈 希 树 。 在 一 个 4 又 
树 中 ， 每 一 个 父亲 结 点 有 4 个 孩子 结 点 。 特 别 地 ， 给 出 孩子 结 点 的 主 存 地 址 ， 制 定 一 种 方案 来 
判断 它 的 父亲 结 点 的 主 存 地 址 。 

适合 于 硬件 实现 的 分 级 访问 控制 : 参考 引用 [48]， 写 一 段 HDL 代码 ， 对 给 出 的 8 位 的 ID 
ID;、SRK、Ki 和 KK 来 产生 8 位 的 Ri; 和 Nj。 使 用 以 下 的 数据 来 测试 你 的 代码 。 然 后 使 用 ID 
ID;, Ry FA Ni 的 值 来 计算 密码 Kio WHA i 和 jj 的 Rj; FA Ny 的 值 将 会 公开 。 


解释 在 何 种 方式 下 一 个 安全 的 协同 处 理 器 可 以 提高 计算 机 的 安全 性 。 

概括 在 一 个 运行 TSM 的 系统 中 SP 必须 能 够 表现 出 的 基本 功能 。 

解释 在 何 种 方式 下 SP 可 以 提高 计算 机 的 安全 性 。 

假设 对 一 个 DI-SXM 程序 ， 这 个 程序 的 数据 块 生 成 了 序列 数 的 一 个 哈 希 树 。 如 果 攻 击 者 实施 了 
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一 次 块 欺骗 、 拼 接 或 重 放 攻击 ， 将 会 发 生 什 么 ? 每 一 种 类 型 的 攻击 可 以 被 测 到 吗 ? 为 什么 ? 
假设 对 一 个 DI-SXM 程序 ， 数 据 块 的 序列 数 被 存储 在 SP 的 内 部 ， 而 不 是 内 存 中 。 简 要 说 明 在 
SP 内 部 存储 序列 数 的 优点 和 缺点 。 

参考 一 个 安全 的 虚拟 内 存 管理 系统 的 设计 。 假 设 我 们 想 用 二 级 哈 希 树 来 验证 每 个 虚拟 页 面 。 每 
个 哈 希 树 包 含 一 个 根 页 面 和 多 个 叶子 数据 页 面 。 每 个 叶子 页 面 的 哈 希 值 存储 在 它 相 应 的 根 页 
面 中 。 假 设 页 面 大 小 为 4KB， 缓 冲 块 是 64B， 每 一 个 哈 希 值 占 16B， 需 要 多 少 根 页 面 来 验证 
16MB 动态 分 配 的 虚拟 内 存 空 间 ? 

参考 虚拟 内 存 数据 块 的 一 个 哈 希 树 ( 即 这 个 哈 希 树 使 用 虚拟 地 址 )。 假 设 SP 实现 物理 地 址 组 
冲 。 在 这 种 情况 下 ， 一 个 块 的 虚拟 地 址 也 被 保存 在 了 低级 缓冲 区 。 简 要 解释 为 何在 处 理 哈 希 树 
和 测试 重 放 攻 击 时 保存 虚拟 地 址 是 有 必要 的 ? 

参考 8 个 数据 块 。 画 出 这 个 哈 希 树 并 解释 通过 HTE 对 块 8、9 和 14 的 验证 。 同 时 ， 确 定 由 于 
访问 这 些 块 而 导致 错过 多 少 缓冲 。 假 设 没有 缓冲 区 的 父亲 块 被 替换 过 。 

我 们 想 通 过 比较 所 需 的 内 存 空间 来 维持 分 配 到 内 存 数据 块 的 序列 数 的 一 个 哈 希 树 。 研 究 了 两 种 
不 同 的 序列 数 : 64 位 与 64 位 拼接 (48 位 的 long 和 16 位 的 short) 的 序列 数 。 而 且 ， 假设 每 16 
个 连续 的 块 用 一 个 long 数字 ， 块 大 小 是 64B ， 每 个 哈 希 值 占 256 位 ， 并 且 动 态 数据 内 存 空 间 的 
最 大 值 是 1MB 。 确 定 在 每 种 情况 中 维持 这 个 哈 希 树 所 需 的 内 存 空 间 大 小 。 

参考 一 个 SXM-OP 系统 。 假 设 CPU 有 4 个 用 户 可 用 的 寄存 器 ， 而 且 数 据 和 地 址 都 是 8 位 的 。 
假设 在 一 个 中 断 中 ，8 位 的 寄存 器 值 和 8 位 的 返回 地 址 通过 按 位 XOR 哈 希 ， 而 且 哈 希 值 保 存 
在 了 CPU 内 部 。 然 后 这 个 寄存 器 值 和 返回 地 址 被 中 断 服务 程序 保存 在 了 内 存 中 。 如 果 这 个 哈 
希 值 被 保存 在 了 CPU 内 部 ， 阐 述 如 何 检 测 欺 骗 、 拼 接 和 重 放 攻 击 。 如 果 某 种 攻击 不 能 被 检测 
到 ， 确 定 原因 并 给 出 一 个 安全 机 制 的 建议 。 你 可 以 假设 共有 5 个 寄存 器 分 别 被 标 为 0 ~ 4， 其 
中 寄存 器 4 用 来 存放 返回 地 址 。 

HTE 是 一 个 微 控 制 器 ， 执 行 SP 内 部 的 一 个 固件 。 为 了 简化 ， 参 考 数据 块 的 一 个 哈 希 树 (而 不 
是 分 配给 数据 块 的 序列 数 的 哈 希 树 )。 在 一 个 程序 可 以 在 DI-SXM 下 访问 它 的 动态 数据 之 前 ， 
动态 数据 块 的 哈 希 树 必 须 已 经 存在 。 假 设 SP 实现 了 MESI 缓冲 协议 ， 描 述 一 个 程序 的 动态 数 
据 块 的 初始 哈 希 树 如 何 被 创建 的 。 还 假设 还 有 其 他 SP 状态 位 ， 因 此 OS 可 以 在 必要 的 时 候 调 
用 固件 ， 也 可 以 选择 使 能 或 禁用 HTE 读 周 期 ， 其 被 禁用 后 导致 从 内 存 加 载 的 数据 块 不 能 被 鉴 
别 。 数 据 内 存 空间 可 以 在 编程 时 被 静态 声明 或 在 运行 时 被 分 配 。 

假设 每 个 动态 数据 块 使 用 隔断 的 序列 号 。 还 假设 在 DI-SXM 程序 运行 时 ， 起 始 地 址 和 动态 数 
据 空间 的 大 小 都 存在 了 SP 中 。 讨 论 /解释 当 一 个 短 的 序列 数字 溢出 时 ， 哈 希 树 是 如 何 更 新 的 。 
同样 也 可 以 参考 练习 11.37。 

假设 一 个 基于 SP 的 系统 对 SXM 程序 (代码 和 数据 )， 非 SXM 程序 〈 代 码 和 数据 )， 保 护 SXM 
程序 数据 块 的 哈 希 树 和 系统 程序 (代码 和 数据 ) 使 用 不 同 的 虚拟 地 址 。 描 述 一 种 SP 可 以 用 于 鉴 
别 每 一 个 不 同 虚拟 地 址 的 正确 页 表 的 机 制 。 
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Addressing modes〈 寻 址 模式 )，311 

AMD opteron processor (AMD 些 龙 处 理 器 )，353， 
458 

AMD phenom processor (AMD 虱 龙 处 理 器 )，3353 

AMD processors (AMD 处 理 器 )，307，353 

AMD quad fx platform (AMD quad fx 平台 )，299 

Analog-to-digital ( 模 数 转换 ，A/D)，9% 

Antidependence ( 反 相 关 )，353 

Application programming interface (应 用 编程 接口 )， 
544 

Application specific ic (专用 集成 电路 ，ASIC)，9%， 
Vos 155 

Arbitrator (PRAF), 399 

ARM cortex-A8 (ARM cortex-A8 ), 307, 357 

Array divider (EFI BRIERE), 139 

ASCII codes (ASCII 编码 )，2 

Assembler directive (汇编 伪 指 令 )，318 

Asynchronous interrupts (异步 中 断 )，402 

Atomic bus access (原子 总 线 访问 )，384 

Attestation identity key (身份 证 明 密 钥 )，499 

Authdata( 授 权 数 据 )，500，501，503 

Availability security property( 可 用 性 的 安全 属性 )， 
463, 504, 536 


B 


Bandwidth (#75), 64, 92, 282, 536 

Basic input/output system (基本 输入 /输出 系统 
BIOS), 384 

Bell-lapadula security policy ( Bell-lapadula 安全 
策略 )，472 | 

Bi-directional (双向 ) . JL bus 

Biased-exponent (a 7820), 5, 127 

Biba security policy (Biba 安全 策略 )，472 

Binary-coded decimal (二 -十进制 编码 ，BCD )， 
50, 184 

Binding data to platform (〈 绑 定数 据 到 平台 )，498 

Bit-parallel design (位 并 行 设计 )，96 

Bit-serial design (PÍT), 97 

Block carry generate unit ( 块 进 位 生成 单元 ， 
BCGU), 105 

Block cipher (〈 块 密码 器 )，485 

Block replacement ( 块 替 换 )，442 

Bootloader (引导 加 载 程序 )，277，390 

Borrow look-ahead subtractor (先行 借 位 ( BLA) 
减法 器 )，108 

Borrow propagate subtractor( 借 位 传播 减法 器 ， 
BPS), 108 i 

Branch history table (分 支 历 史 表 )，390 

Branch prediction 《分 支 预测 )，382 

Bridge ( 桥 )，374 

Buffer-overflow attack (缓冲 区 溢出 攻击 )，465， 
534 

Bulk USB data transfer (USB 批量 数据 传输 )，398 

Bus (28), 63 

Bus master (ÑEZ), 400 
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Cache coherency protocol ( cache 一 致 性 协议 )， 
435 


x al 


Cache controller (cache 控制 器 )，444 

Cache hit (cache 命中 )，429 

Cache line (cache fy), 429 

Cache miss (cache #RH), 429, 445 

Capability-list access control( 容 量 列表 访问 控制 )， 
470 

Capacity cache miss (容量 缓存 缺失 )，435 

Carry generate unit (进位 生成 单元 , CGU), 101 

Checksum ( 校 验 和 )，494，515 

Chinese wall security policy (中 国 “ 长 城 ” 安 全 
政策 )，473 

Cipher (密码 器 )，485 

Cipher MAC (消息 认证 码 )，496 

Cipher block chaining (密码 块 链接 ，CBC)，487 

Ciphertext ( 密 文 )，485 

Clark-Wilson security model ( Clark-Wilson 安 全 
模型 )，473 

Clock cycle〈 时 钟 周期 )，155 

Clock period (时钟 周期 )，155 

Clock signal (时 钟 信号 )，146 

Clock skew《 时 钟 脉冲 相位 差 )，156，198 

Clock-to-output. W clock-to-q (时 钟 至 输出 ) 

Clock-to-q 《时钟 至 q)，156 

Cloud computing( 云 计算 )，25 

Cluster (集群 )，25 

Code injection (代码 注入 )，463 

Cold cache miss (cache @iR), 435 

Communication interface (通信 接口 )，448 

Comparator logic (比较 器 逻辑 )，138 

Complex instruction set computer (复杂 指令 集 计 
算 机 ，CISC)，225，315 

Computational attack (计算 攻击 )，475 

Confidentiality security policy (保密 性 安全 策略 )， 
463 

Configurable CPU (可 配置 CPU), 218 

Configurable logic block (可 配置 逻辑 块 ，CLB )， 
76，178 

Configuration USB descriptor (配置 USB 描述 符 )， 
418 ` | 

Conflict cache miss (冲突 缓存 缺失 )，435 

Context switch (上 下 文 转换 )，451 

Control bus (控制 总 线 )，281 

Control memory (控制 存储 器 )，227 


427 


Control unit (控制 单元 )，6，215 

Control USB data transfer ( USB 控制 数据 传输 )， 
418 

Coordinate rotation digital computer (坐标 旋转 数 
FitHpl, CORDIC), 20, 235 

Corrupter attack (TRAIL), 475 

Counter mode cipher (计数 器 模式 密码 器 )，488 

Cryptography key stream (加密 秘 钥 流 )，485 

Cryptography key whitening (Hi $% # 4H % A), 
497 

Cryptoprocessor (加 密 处 理 器 )，484 

Cycles per instruction( 每 条 指令 的 周期 数 ，CPI)， 
335 
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Data bus (数据 总 线 )，281 

Data cache (数据 缓存 )，427 

Data dependence( 数 据 依赖 )，353 

Data Encryption Standard cipher (数据 加 密 标准 
(DES) 密码 器 )，487 

Data-parallel computation (数据 并 行 计 算 )，22 

Data path (数据 通路 )，6，215，271，282，305， 
374, 435, 464 

Data storage through hardware (通过 硬件 的 数据 
存储 )，487 

DeMorgan’s theorem【(〈 德 摩根 定理 )，34 

Denormal FP number ( 非 规格 化 浮 点 数 )，$，128 

Deterministic FSM (确定 有 限 状 态 机 )，174 

Device controller (设备 控制 器 )，374 

Device controller interface (设备 控制 器 接口 
DCI), 9, 374 

Device driver routine (设备 驱动 程序 )，353 

Device descriptor (USB 设备 描述 符 )，418 

Digital rights management (数字 权限 保护 )，484 

Digital signal processor (数字 信和 号 处 理 器 ，DSP)，9 

Digital-to-analog ( 数 模 转换 ，D/A)，9% 

Digitizing analog signal (数字 化 模拟 信号 )，2 

Discretionary access control (自主 访问 控制 )，470 

DMA channel \ 存储器 直接 存 取 通道 )，400 

DMA transfer table (DMA 传输 表 )，400 

Double data rate sdram (JAH (DDR) 同步 动 
态 存储 器 )，294 

DRAM refresh cycle (DRAM 刷新 周期 )，276 


428 


Dual principle〈 对 偶 原 理 )，37 

Dynamic energy (动态 能 量 )，231 

Dynamic memory (动态 随机 存 取 存储 器, DRAM), 
275 

Dynamic power consumption (动态 功 耗 )，233 
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Edge triggered flip-flop (边沿 触发 器 )，151 

Efficiency (效率 )，223，279，298，308 

Embedded systems (WARR), 9, 374 

Emitter attack (KNAW), 475 

Endpoint USB descriptor (端点 USB 描述 符 )，417 

Error correcting code SDRAM( 错 误 校 正 码 (ECC) 
SDRAM), 510 

Error detection and correction( 检 错 与 纠 错 )，192， 
198 

Espresso minimization software ( Espresso 最 小 化 
软件 )，54 

Essential prime implicant (EA RAGIN, EPI), 46 

Exceptions (异常 )，401 

External cache hit (外 部 cache 命中 )，445 
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Fair memory access scheduler (公平 内 存 访 问 调 
度 程 序 )，536 

False-sharing cache miss〈 错 误 共 享 cache 缺失 )， 
444 

Fault tolerant FSM (容错 FSM), 174 

Feature size( 特 征 尺寸 )，1 

Field programmable gate array (现场 可 编程 门 阵 
列 ，FPGA), 9, 155 

Fifo buffer ( 先 人 先 出 缓冲 器 )，185 

Firmware (固件 )，351，484 

Flame virus (火焰 病毒 )，471 

Flash memory (flash 存储 器 )，274，390 

Floating-point number (FA (FP). 数 )，5，126 

Floating point operations per second (每 秒 浮 点 运 
算 次 数 ，FLOPS)，24，224 

Floating point unit ( 浮 点 单元 ，FPU)，98 

Forward branching (4432), 344 

Forwarding unit (转发 单元 )，330 

Frame (HE2), 398, 416 

Front-side bus《〈 前 端 总 线 ，FSB)，376 


Kl 


Fully associative mapping cache (全 相 联 映射 cache), 
433, 456 
Fused operation (混合 操作 )，217 


G 


Glitch (ABE), 60, 147 

Global branch predictor (全 局 分 文 预 测 )，352 

Graphic processing unit (图 形 处 理 器 ，GPU)，9， 
20, 269 

Gray code (#44), 184 


H 


Hamming code (724483), 192, 510 

Hamming distance ( 汉 明 间距 )，192 

Hardware backdoor (硬件 后 门 )，473 

Hardware description language (硬件 描述 语言 ， 
HDL), 2, 16 

Hardware interrupts (硬件 中 断 )，401 

Hardware trojan〈 硬 件 木马 )，473 

Hash value〈 哈 希 值 )，494 

Hashed MAC (基于 哈 硕 的 MAC)，497 

Hazard (冒险 )。 见 Glitch 

Hazard unit (冒险 单元 )，332 

Heterogeneous cores ( 异 构 核 )，22 

High impedance (高 阻抗 )，61，284 

Hit ratio( 命 中 率 )，431 

Homomorphic computation( 同 态 计 算 )，520 

Host controller interface ( 主 控制 器 接口 )，9， 
374 

Hot-spot (热点 ), 449 , 

Hybrid FSM (H FSM), 172, 185 

Hypertransport interconnect ( 超 传 输 互 联 )，378 


IO controller hub (IO 控制 器 集线器 )，377 

I/O ports (IO 端口 )，9，374 

Implicant (蕴含 项 )，46 

Implicit latch〈 隐 式 锁 存 器 )，158，179 
Information flow tacking (信息 流 定位 )，464，535 
Input port( 输 入 端口 )，387 

Instruction cache (指令 cache)，427 

Instruction cycle (指令 周期 )，310 

Instruction pipeline (指令 流水 线 )，307 
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Instructions per cycle (每 周期 指令 数 ，IPC)，308 ， 
340 

Integrated chip (集成 电路 芯片 )，1 

Integrity security property (完整 性 的 安全 属性 )， 
463 

Intel core i7 (英特尔 酷 窒 i7 Ab HH RE), 21, 23, 
308, 358 

Intel itanium processor (英特尔 安 腾 处 理 器 )，21， 
356 

Intel pentium IV processor (英特尔 奔腾 IV 处 理 
at), 360 

Intel xeon processor (28 Ff 7K 3 5R Ab FB AE), 430, 
442 

Interface USB engine (USB 接口 引擎 )，423 

Integer unit (整数 单元 )，98 

Interleaving (交叉 )，295，300，341 

Interrupt acknowledge (中 断 确认 )，407 

Interrupt-driven I/O (中 断 驱动 输入 /输出 )，393 

Interrupt handler (中 断 处 理 程序 )，393 ，522 

Interrupt priority (中 断 优 先 级 )，393 

Interrupt request (中断 请 求 )，395 

Interrupt structure〈 中 断 结 构 )，393 

Interrupt USB data transfer (USB 中 断 数 据 传 输 )， 
398, 420 

Interrupt vector table (Høm BZ), 405 

Invalidation cache protocol (失效 缓存 协议 )，444， 
446 

Isochronous USB data transfer ( USB 准 同 步 数 据 
传输 )，398，417 


J 
JK flip-flop (JK 触发 器 )，157 


K 


K-Map minimization rules (K-Map 最 小 化 规则 ), 
46 

Keyboard key matrix (键盘 按键 矩阵 )，391 

Keyed-hash (AFRESH 4), 496, 500, 510 


L 


Latency (EIR), 299, 375, 378, 385 
Leakage current (WWE EM), 234, 276 
Leaking information (信息 泄露 )，476，513 516, 


429 
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Level 1 cache (一 级 cache), 428 

Level 2 cache (二 级 cache), 428 

Level 3 cache ( =% cache), 430, 442 

Line memory( 行 存储 器 )，435 

Linear feedback shift register (线性 反馈 移 位 寄存 
Af, LFSR), 485 

Local memory (本 地 存储 器 )，299 

Local branch predictor (Æ Hh 4} x Fil W), 350, 
392 

Logic gates (37 48/J), 10 

Logic product term (逻辑 乘积 项 )，34 

Logic sum term (逻辑 和 项 )，36 


M 


Machine instruction 〈 机 器 指令 )，8，311 

Mandatory access control (强制 访问 控制 )，470， 
473, 484 

Mealy FSM, 172 

Memory access time (存储 器 存 取 时 间 )，289 

Memory authentication (内存 认 证 )，551 

Memory banks (存储 片 )，279 

Memory cell (存储 单元 )，274 

Memory controller hub (存储 器 控制 单元 , MCH), 
374 

Memory cycle (存储 周期 )，289 

Memory management unit (存储 器 管理 单元 ，MMU )， 
452 

Memory-mapped I/O (内 存 映射 IO)，386 

Memory row activation 〈 存 储 器 行 激活 )，277 

Message digest (消息 摘要 )，496 

Message passing system (消息 传递 系统 )，24 

Metastability( 亚 稳 态 )，152 

Micro-operation〈 微 操作 )，227 

Microcontroller〈 微 控制 器 )，374，390 

Microinstruction ( 微 指 令 )，227 

Microprogram ( 微 程序 )，227 

Microprogrammed control ( 微 程序 控制 )，225 

Million instruction per second (每 秒 百 万 条 指令 ， 
MIPS), 224 

MIPS processor (MIPS AbF# ae), 225, 307, 316, 
336 

Miss ratio (RA), 431 


430 


Mnemonic opcode (Bhig #4), 310 

Moore FSM, 172 

Moore’s law (摩尔 定律 )，1 

Motherboard ( 母 板 )，377 

Multi-lateral security policy (多 边 安全 政策 )，472 

Multi-level security policy (多 级 安全 策略 )，472， 
503 

Multiple instruction multiple data (多 指令 多 数据 ， 
MIMD), 22 

Multiprogramming(〈 多 道 程序 设计 )，401，450 

Mnultithreaded programming (多 线程 编程 )，22， 
308, 362 

Multithreading (多 线程 )，22，341 


N 


National institute of standards and technology ( 国 
家 标准 技术 局 ，NIST)，487，498 

Net-list (HÆ), 17, 75 

Network adaptor (网 络 适 配器 )，386 

Non-computational attack (〈 非 计算 性 攻击 )，475 

Non-return-to-zero inverted (JZ [nh] AJA 4, NRZI), 
212, 270, 415 

Non-uniform memory access (不 统一 存储 器 存 取 ， 
NUMA), 378, 448 

Non-volatile memory( 非 易 失 性 存储 器 )，274 

Nonce〔 临 时 值 )，499 

Normal FP number (规格 化 浮 点 数 )，5，128 

Normalizing FP result (规格 化 浮 点 数 结果 )，133 

Northbridge (北桥 )，377 


O 


Object code (目标 代码 )，310 
Out-of-order execution〈 乱 序 执行 )，357 
Output dependence( 输 出 相关 )，353 
Output port (输出 接口 )，387 
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Packet (4), 283, 415 

Page fault (#R HM), 401, 430 

Page mode access (页 面 模式 访问 )，279 
Paging (分 页 )，430 

Parity bit( 校 验 位 )，195 

Parity generator (奇偶 发 生 器 )，198 


Pass transistor (EE ), 275 

Physical attacks (物理 攻击 )，25 

Physical memory (物理 存储 器 )，429 

Physically addressed cache (物理 寻 址 cache), 458, 
521 

Pipeline chart (流水 线 图 表 )，220 

Pipeline flush (流水 线 清空 )，331 

Pipeline stage (流水 线 阶 段 )，220 

Placement-and-route (布局 和 布线 )，79 

Plug and play devices ( 即 插 即 用 设备 )，373 

Point-to-point communication (点 对 点 通信 )，64， 
378 

Port-mapped I/O (端口 映射 IO)，346 

Precise interruption (确定 中 断 )，361 

Predicated instruction (预测 指令 )，356，535 

Prime implicant ( 素 蕴含 项 )，46 

Primitive gates (基本 门 )，80 

Priority encoder (优先 编码 器 )，73 

Private key( 秘 钥 )，489 

Process switch (进程 切换 )，452 

Process (进程 )，451 

Processing core (处 理 核 心 )，2 

Program counter (程序 计数 器 )。 见 Program pointer 

Program pointer (程序 指针 )，318 

Programmable logic device (可 编程 逻辑 器 件 ， 
PLD), 75 

Programmed I/O (程序 控制 1/0), 393 

Propagate-generate unit (传播 生成 单元 ，PGU)， 
101 

Pseudo instruction( 伪 指令 )，318 

Public key (公开 秘 钥 )，489 

Public key infrastructure ( 公 钥 密码 ，PKI)，491 


Q 


Quickpath interconnect (快速 通道 互联 )，378 
Quine-McCluskey algorithm ( 奎 因 -麦克 拉 斯 基 
算法 )，51 
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Random access memory (BEALE ELA Ad, RAM), 
274 

Randomized encryption (随机 加 密 )，516 

Read after write hazard (5 Jai (RAW) 冒险 )，353 
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Reciprocal division algorithm ( 例 数 除法 算法 )，139 

Redundant array of independent disks (独立 磁盘 
宛 余 阵列 ，RAID )，385 

Register renaming (寄存 器 重 命名 )，357 

Register transfer language (寄存 器 传送 语言 ,，RTL)， 
16 

Register window (寄存 器 窗口 )，309 

Remote memory (远程 存储 髓 )，299 

Replay attack ( 重 放 攻 击 )，481，504，514，519 

Restoring division algorithm (恢复 除法 算法 )，124 

Reverse polish notation ( 逆 波 兰 表示 法 )，313 

Ripple carry adder ( 行 波 进位 加 法 器 ，RCA)，99 

Rotations per minute (每 分 转速 )，385 

Rounding error( 舍 人 错误 )，133，217 


S 


Sampling rate (采样 率 )，2 

Scan code (扫描 码 )，392 

Score boarding (记分 牌 )，358 

Secret root key (加 密 根 键 )，499 

Secure execution environment (安全 执行 环境 )， 
484, 509 

Secure execution mode (安全 执行 模式 ，SXM)，484， 
509 

Secure root hash (ZERRA ), 504 

Security key storage (安全 秘 钥 存储 )，499 

Seek time (查找 时 间 )，385 

Sense amplifier (放大 器 )，277 

Sensitivity list (敏感 信号 表 )，86，158 

Server overload (服务 器 人 负载 超重 )，464 

Session key (会 话 秘 钥 )，512 

Shared cache (共享 cache)，430 

Shared memory system (共享 存储 系统 )，22 

Shoot-through current (贯通 电流 )，232 

Side channel attacks( 侧 信道 攻击 )，474 

Sign extension (符号 扩展 )，4 

Signal chasing (信号 追逐 )，148 

Signal fall time (信号 下 降 时 间 )，58，234 

Signal handshaking (信号 握手 )，381 

Signal polarity (信号 极 性 )，31 

Signal rise time( 信 号 上 升 时 间 )，58，234 

Signature security key (有 签名 的 安全 秘 钥 )，499 

Signed magnitude number ( 带 符号 数 )，3，127 


431 


Silicon graphics’ sgi Altix 4700 system (RZA F] 
的 SGI Altix 4700 ABE), 299 

Single instruction multiple data ( 单 指 令 多 数据 ， 
SIMD), 20, 98, 218, 308 i 

Single instruction single data ( 单 指令 单数 据 ，SISD )， 
22 

Snoop controiler (MUTE tila), 444 

Software interrupt (软件 中 断 )，401 

Southbridge (MF), 377 

Sparc processor (Sparc Ab###e), 307, 344, 345 

Spatial locality (空间 局 部 性 )，431 

SPEC CPU2006 (CPU2006 规范 )，224 

SPEC89 (SPEC89 规范 )，352 

Speculative execution〔 预 测 执行 )，356，529 

SPECviewperf (SPECviewperf 规范 )，224 

Speedup (JT), 223 

Splicing attack (拼接 攻击 )，481，509 

Split transaction (分 离 事务 )，383 

Spoofing attack (欺骗 攻击 )，481，509，534 

Static memory (静态 存储 器 )，275 

Static power consumption (静态 功 耗 )，234 

Status change USB endpoint( 状 态 更 改 USB 端点 )， 
417 

Steaming SIMD extension ( 流 式 SIMD 扩展 ，SEE)， 
20 

Stream cipher( 流 密码 器 )，485，486 

Stuxnet malware (恶意 软件 )，472 

Superpipelining ( 超 流 水 )，340 

Superscalar processor (超标 量 处 理 器 )，340 

Synchronizing flip-flop (同步 触发 器 )，203 

Synchronous interrupts (同步 中 断 )，401 

System-on-chip (片上 系统 ，SoC)，9，378 


T 


T flip-flop (T 触发 器 )，157 

Tag memory (标记 存储 器 )，435 

Temporal locality (时 间 局 部 性 )，431 

Test-bench (测试 台 )，79 

Thermal design power ( 热 设 计 功 率 )，23 235 
Third-party modules (第 三 方 模块 )，464 

Thread (线程 )，22，361 

Thread-level parallelism (线程 级 并 行 ，TLP)，363 
Thread switch (线程 切换 )，452 


432 


Threat vector (威胁 向 量 )，509 

Throughput (Æt), 24, 223, 307 

Time slice (时 间 片 )，402 

Timing attack〈 和 定时 攻击 )，474，489 

Transceiver (收发 硕 ) .. 见 bus 

Transient fault(〈 瞬 时 故障 )，166 

Transistor CMOS (晶体 管 ，CMOS)，12 

Trap (KBF), 401 

True color mode( 真 彩色 模式 )，2 

True-sharing cache miss (真实 共享 cache 缺失 )， 
444 

Trusted computing base (PJ fA it A, TCB), 465, 
508 

Trusted firmware module (PJ EMPIRI), 484 

Trusted hardware module (可 信 硬件 模块 )，484 

Trusted platform module( 可 信 平 台 模 块 )，484 - 

Trusted software module (可 信和 软件 模块 )，484， 
536, 551 


U 
Unicode (统一 字符 编码 标准 )，2 
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Uniform memory access( 统 一 存储 器 访问 , UMA), 
378, 430 
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